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第 l 章 论 美 Noah Iliinsky 


美感 

学 习 经 典 

元 素 周期 表 
伦敦 地 铁 图 

其 他 地 铁 图 和 周期 表 仅 仅 是 弱 仿 制品 
如 何 实现 美丽 

走出 默认 风格 

使 可 视 化 信息 更 充实 
预期 的 信息 

使 可 视 化 变 得 高 效 
充分 利用 美感 








故事 在 信息 可 视 化 中 的 重要 性 
Matthias Shapiro 
问题 + 可 视 化 数据 + 





构建 可 视 化 








第 3 章 Wordle Jonathan Feinberg 
Wordle 的 起 源 
Wordle 如 何 工作 





Wordle 是 优秀 的 信息 可 视 化 吗 
如 何 真正 使 用 Wordle 
传统 的 信息 可 视 化 使 用 Wordle 











第 4 章 色彩 : 数据 可 视 化 的 “ 灰 姑娘 ” Michael Driscoll 
为 什么 在 数据 图 像 中 使 用 色彩 

使 用 多 种 绘图 符号 

在 画布 上 使 用 小 的 多 重 图 形 







如 果 色 彩 是 三 维 的 ， 可 以 用 它 进行 三 维 编码 吗 
亮度 作为 恢复 局 部 密度 的 方法 
展望 未 来 ， 关于 动画 
方法 
结束 语 
参考 文献 和 补充 阅读 
第 5 章 (A. Hare 









设计 纽约 地 铁 图 Eddie Jabbour (Julie 


需要 更 好 的 工具 


回忆 在 伦敦 
AA “TH” 

好 的 工具 衍生 更 好 的 工具 
尺寸 只 是 一 个 因素 

从 回顾 到 展望 











对 地 铁 线 着 色 
Wee “Wa” WAR M 





用 户 只 是 平凡 人 
由 小 区 组 成 的 城市 
一 种 尺寸 并 不 适合 所 有 场合 





入 探索 Aaron Koblin 和 Valdean Klump 





色彩 
EÈ 





Life: 社会 模式 的 挖掘 和 可 视 化 Valdis 





Amazol 





结 束 语 语 








使 用 GraphViz 对 数据 可 视 化 








om SA: 搜索 和 发 现 Todd Holloway 
可 视 化 技术 
YELLOWPAGES. COM 











第 10 章 ”从 社交 网 络 可 视 化 的 混杂 之 中 寻找 美丽 的 感悟 ”Adam Perer 
社交 网 络 可 视 化 


想 要 对 社交 网 络 进行 可 视 化 





SocialAction 的 设计 
参议 院 表 决 的 社交 网 络 





恐怖 分 子 的 社交 网 络 
参考 文献 





美丽 的 历史 : 对 维基 百科 可 视 化 ”MartinWattenberg 和 











染色 图 :一 次 对 一 个 人 进行 可 视 化 











把 并 行 集 发 展 成 意义 深远 的 





第 12 章 ”把 表 转 换 | 


Kosara 

分 类 数据 
并 行 集 

可 视 化 重 设计 





树 结构 增长 


现实 世界 中 的 并 行 集 











%# Moritz Stefaner 
简介 和 概念 

了 解数 据 形势 
探索 数据 
初次 可 视 化 草图 
可 视 化 原则 

最 终 产 品 

所 有 的 提交 作品 
按 是 否 获奖 划分 








按 作品 类 别 划分 









ERER Maximilian Schich 


网 络 维度 





数据 规模 扩大 
深层 次 应 用 
结束 语 


致谢 











ZAA Snn 





连接 

结束 语 

第 16 章 ” 《纽约 时 报 》 的 一 天 MichaelYoung 和 Nick Bilton 
收集 一 些 数 据 

数据 清洗 

Python、 Map/Reduce 和 Hadoop 

可 视 化 的 第 一 步 

基础 层 地 图 

fale da 












让 我 们 运行 一 下 ， 看 看 会 发 生 什么 
可 视 化 的 第 二 步 
Sg 





致谢 
第 17 章 ”深入 揭秘 复杂 系统 Lance Putnam、GrahamWakefield、Haru 





Ji. Basak Alper, Dennis Adderton 和 JoAnn Kuchera-Morin 


J 











计算 方法 
作为 过 滤器 来 解释 









氧 原子 
纺织 氧 原子 





Anders Persson 





解剖 可 视 化 ， 真 正 的 黄金 标准 








对 法 医 工作 的 影响 
虚拟 尸检 流程 
数据 采集 





展 阅 读 
动画 可 视 化 : 机 遇 和 缺点 Danyel Fisher 








第 19 章 53 
动画 原则 
科学 可 视 化 中 的 动 





动画 的 负面 效应 





动画 准确 率 更 低 











用 DynaVis 制 作 的 舞台 动画 
动画 原则 


结束 语 : 是 否 采用 动画 


Jessica Hagy 





可 视 化 ， 是 一 门 艺 术 
可 视 化 : 是 一 种 商务 






可 视 化 : 是 编码 的 

可 视 化 : 是 清晰 的 
可 视 化 : 是 可 学 习 的 
可 视 化 : 是 一 个 流行 语 
可 视 化 : 是 一 个 机 遇 
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0’ Reilly Media 通 过 图 书 、 杂 志 、 在 线 服 务 、 调 查 研究 和 会 议 等 
方式 传播 创新 知识 。 自 1978 年 开始 ，0”Reilly 一 直 都 是 前 沿 发 展 的 见 
证 者 和 推动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真正 重要 的 
技术 趋势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 社会 对 新 科技 的 应 
用 。 作 为 技术 社区 中 活跃 的 参与 者 ，0”Reilly 的 发 展 充满 了 对 创新 的 
倡导 、 创 造 和 发 扬 光 大 。 








0 Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”; 创建 第 一 个 
商业 网 站 (GN); 组 织 了 影响 深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软 
件 运 动 以 此 命名 ; 创立 了 Make 杂 志 ， 从 而 成 为 DIY 革 命 的 主要 先锋 ; 公 
司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽 市 。0” Reilly 的 会 议和 
峰会 集聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 新 
产业 的 革命 性 思想 。 作 为 技术 人 士 获取 信息 的 选择 ，0” Reilly 现 在 还 
将 先锋 专家 的 知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 ， 
在 线 服务 或 者 面授 课程 ， 每 一 项 0” Reilly 的 产品 都 反映 了 公司 不 可 动 
摇 的 理念 一 一 信息 是 激发 创新 的 力量 。 








业界 评论 


“Y Reilly Radar x 0O Eo ae. ” 


一 一 Wired 


“0” Reilly 和 凭借 一 系列 “真希 望 当初 我 也 想到 了 )〉 非凡 想法 建立 
了 数 百 万 美元 的 业务 。” 





——Business 2.0 


“0” Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 


——CRN 





“一 本 0” Reilly 的 书 束 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主 


——1rish Times 











“Tim 是 位 特 立 独行 的 商人， 他 不 光 放 有 眼 于 最 长 远 、 最 广阔 的 视野 
并 且 切 实地 按照 Yogi Berra 的 建议 去 做 了 :“ 如 果 你 在 路 上 遇 到 贫 路 
O, ， 走 小 路 “〈 倪 路 ) 。” 回顾 过 去 Tim 似 乎 每 一 次 都 选择 了 小 路 ， 而 且 
有 几 次 都 是 一 内 即 瞬 的 机 会 ， 尽 管 大 路 也 不 错 。” 


一 一 Linux Journal 


Pe Fe 


可 视 化 作为 一 门 涉及 计算 机 图 形 学 、 图 像 处 理 、 计 算 机 视觉 、 人 
机 交互 等 多 个 领域 的 综合 学 科 ， 不 但 广泛 应 用 于 如 医学 、 和 生物、 地 理 
等 领域 的 科学 计算 ， 而且 在 如 金融 、 通 信 、 网 络 等 行业 中 信息 处 理 方 
面 的 应 用 亦 是 如 火 如 茶 。 


可 视 化 往往 是 借助 图 形 化 手段 来 传递 和 表达 信息 ， 但 是 它 并 不 等 
同 于 计算 机 图 形 化 。 本 书 作为 《数据 之 美 》 《数据 之 美 》 中 文 版 已 
由 机 械 工业 出 版 社 于 2010 年 10 月 出版，ISBN: 978-7-111-31512-4) 的 
姊妹 篇 ， 既 不 是 介绍 某 个 软件 或 者 某 种 具体 技术 的 工具 性 书籍 ， 也 不 
是 像 讲述 一 门 编程 语言 那样 循序 渐进 、 深 入 浅 出 介绍 语法 用 例 等 。 本 
书 从 较 高 层次 上 介绍 数据 可 视 化 的 方法 和 思想 ， 通 过 描述 分 析 很 多 实 
例 ， 引 领 读 者 探索 如 何 把 数据 可 视 化 和 美学 结合 起 来 ， 从 而 深入 洞察 
数据 可 视 化 之 美 。 只 有 数据 可 视 化 和 美学 的 结合 和 并 进 ， 才 能 达到 实 
现 了 可 视 化 的 功能 需求 且 不 繁琐 枯燥 ， 展 现 了 绚丽 多 彩 的 效果 却 又 不 
过 于 复杂 。 本 书 涉及 的 领域 相当 广泛 ， 既 包括 对 飞行 模式 、 纽 约 地 铁 
图 、 美 国 参议 院 、 维 基 百 科 、 医 学 解剖 的 可 视 化 ， 又 涵盖 了 对 可 视 化 
的 一 些 重要 特征 的 分 析 ， 并 带领 读者 走 入 让 人 叹为观止 的 尖端 高 科技 
项 目 AlloSphere 的 科学 探索 ， 以 及 分 享 从 美学 角度 领略 的 种 种 洞察 和 

















感悟 等 。 阅读 本 书 也 许 无 法 带 来 很 大 的 技能 提高 ， 却 可 以 在 一 定 程度 
上 开阔 我 们 的 视野 ， 拓 展 我 们 的 思考 空间 。 


这 是 我 翻译 的 第 二 本 书 (第 一 本 是 《数据 之 美 》) ， 切 里 体会 到 
翻译 一 本 书 是 多 么 不 容易 。 于 我 而 言 ， 也 许 是 对 其 中 很 多 领域 的 专业 
知识 了 解 不 够 ， 本 书 的 翻译 相对 要 难得 多 。 虽 然 投 入 了 大 量 的 业余 时 
间 ， 却 还 是 进展 得 非常 缓慢 ， 导 致 一 拖 再 拖 。 感 谢 机 械 工业 出 版 社 纺 
辑 的 理解 与 锅 容 ， 也 感谢 所 有 其 他 为 本 书 付 出 努力 的 人 们 。 











本 书 由 祝 洪山 和 我 协力 翻译 完成 。 虽 然 满心 期 望 给 读者 融 来 好 的 
译作 陪读 体验 ， 但 由 于 时 间 、 精 力 、 能 力 有 限 ， 芷 漏 、 错 误 之 处 在 所 
难免 ， 还 望 各 位 读者 不 将 指正 。 





2011 年 2 月 


到 
lh 


Toby Segaran 和 Jeff Hammerbacher 的 《数据 之 美 》 探 索 了 从 数据 
收集 到 数据 存储 、 组 织 和 分 析 等 与 数据 相关 的 方方面面 。 很 自然 地 ， 
编著 本 书 的 想法 正 是 基于 此 书 。 在 编著 《数据 之 美 》 一 书 的 过 程 中 ， 
我 们 就 很 清晰 地 认识 到 可 视 化 一 一 把 信息 作为 艺术 品 展现 给 人 们 一 一 
是 一 个 值得 我 们 另行 审视 且 非 常 有 深度 和 广度 的 话题 。 成 功 的 可 视 
化 ， 如 果 做 得 漂亮 ， 虽 表面 简单 却 富 含 深意 ， 可 以 让 观察 者 一 眼 就 能 
洞察 事实 并 产生 新 的 理解 。 我 们 希望 帮助 新 手 在 可 视 化 这 个 不 断 发 展 
的 领域 中 了 解 专家 们 为 实现 这 一 目标 所 采用 的 方法 和 决策 过 程 。 











饶 有 趣味 的 是 ， 在 收集 潜在 的 撰 稿 人 列表 时 ， 我 们 发 现 “ 美 丽 ” 
一 词 可 以 有 非常 多 的 诠释 方式 。Andy 0ram 和 Greg Wilson 的 
(Beautiful Code》《 该 书 中 文 版 《代码 之 美 》 已 由 机 械 工业 出 版 社 
于 2009 年 1 月 出 版 ，ISBN: 978-7-111-25133-0) 一 书 芮 定 了 该 “之 
美 ” 系 列 ， 它 把 “美丽 ”定义 为 解决 某 些 问题 的 一 种 简单 优雅 的 方 
式 。 但 是 ， 可 视 化 一 一 作为 信息 和 艺术 的 融合 一 一 自然 地 结合 了 问题 
求解 和 艺术 这 两 个 方面 ， 允 许 我 们 同时 通过 理性 和 传统 的 感官 方式 来 





我 们 和 希望 你 会 和 我 们 一 样 喜欢 本 书 所 展现 的 丰富 多 彩 的 背景 知 
识 、 项 目 和 方法 。 虽 然 各 章 涉 及 的 背景 、 项 目 和 方法 不 同 ， 但 它们 确 
实 为 那些 善于 思考 和 观察 的 人 们 提供 了 一 些 主 题 。 整 本 书 围绕 着 寻找 
数据 的 思想 展开 讨论 ， 包 括 讲 故事 、 色 彩 使 用 、 数 据 中 的 粒度 级 别 和 
用 户 探索 。 抓 住 这 些 线索 ， 看 看 它们 可 以 给 你 的 工作 市 来 什么 局 发 。 








本 书 的 版 税 将 捐赠 给 “人 道 建筑 组 织 ”( CAchitecture for 
Humanity, http: //www. architectureforhumanity. org) 。 该 组 织 致力 
于 通过 为 最 需要 的 地 方 提供 设计 、 建 造 和 开发 服务 ， 以 使 得 世界 变 得 
更 加 美好 。 我 们 希望 你 会 思考 自己 的 设计 过 程 如 何 改变 世界 。 


本 书 的 组 织 方式 


以 下 是 本 书 的 概览 : 


Ble “ 论 美 ”。Noah Iliinsky 给 出 了 在 可 视 化 情境 下 ， 美 所 
蕴涵 的 意义 ， 为 什么 值得 追求 ， 以 及 如 何 追 求 。 


第 2 章 “曾经 的 堆 闪 时 间 序 列 : 讲述 故事 在 信息 可 视 化 中 的 重要 
性 ”。Matthias Shapiro 闸 述 了 讲 故 事 对 于 可 视 化 的 重要 性 ， 引 导读 
者 一 起 创建 一 个 自己 可 以 实现 的 、 简 单 的 可 视 化 项 目 。 


第 3 章 “Wordle”。Jonathan Feinberg 介 绍 了 他 所 发 明 的 流行 
的 可 视 化 文本 的 内 部 工作 方式 ， 探 讨 了 其 在 这 个 过 程 中 从 技术 和 审美 





角度 上 所 做 的 选择 。 


第 4 章 “色彩 : 数据 可 视 化 的 ′ 灰 姑 娘 ””。Michael Driscoll 
曾 述 了 如 何 有 效 地 使 用 颜色 来 表达 我 们 尚未 意识 到 而 大 脑 却 可 以 识别 
的 其 他 维度 的 数据 。 





PoR “信息 映射 : 重新 设计 纽约 地 铁 图 ”。Eddie Jabbour 以 
探索 简陋 的 地 铁 图 作为 基本 的 可 视 化 工具 来 理解 复杂 的 系统 。 





Bom “飞行 模式 : 深入 探索 ”。Aaron Koblin 和 Valdean 
Klump 对 美国 和 加 拿 大 的 民航 交通 进行 可 视 化 ， 揭 示 了 一 种 “ 闫 狂 ” 的 
空中 旅行 方法 。 


PTE “你 的 选择 揭示 你 是 谁 : 社会 模式 的 挖掘 和 可 视 化 ”。 
Valdis Krebs 深 入 探索 行为 数据 ， 证 明了 通过 我 们 购买 的 书 和 交往 的 
人 能 够 更 深入 地 揭示 上 自我 。 


第 8 章 “美国 参议 院 社交 图 (1991~2009) 的 可 视 化 ”。Andrew 
0dewahn 通 过 “定量 ”的 证 据 来 评价 美国 参议 院 关 于 投票 联盟 的 “ 定 
性 ”的 故事 。 





第 9 章 “Bima: 搜索 和 发 现 ”。Todd Holloway 通 过 已 经 应 用 
于 YELLOWPAGES. COM 网 站 和 Netflix 颁 奖 中 的 近似 图 形 化 技术 来 探索 搜 
索 和 发 现 的 动态 特征 。 


第 10 章 “从 社交 网 络 可 视 化 的 混杂 之 中 寻找 美丽 的 感悟 ”。 
Adam Perer 通 过 结合 可 视 化 和 统计 的 交互 技术 ， 以 帮助 读者 深入 探索 
混杂 的 社交 网 络 可 视 化 。 








第 11 章 “美丽 的 历史 : 对 维基 百科 可 视 化 ”。Martin 
Wattenberg 和 Fernanda Viegas 从 最 初 的 设计 草图 到 发 表 的 科学 论文 ， 
通过 可 视 化 带领 读者 走向 未 知 领域 的 探索 。 





Fille “把 表 转 换 成 树 : 把 并 行 集 发 展 成 意义 深远 的 项 目 ”。 
Robert Kosara 重 点 描述 了 数据 的 可 视 化 展现 和 基础 的 数据 结构 或 数据 
库 设计 之 间 的 关系 。 








第 13 章 “ X byY 的 设计 : 奥地利 电子 艺术 节 档 案 的 信息 美学 
探索 ”。Moritz Stefaner 摘 述 了 努力 寻找 的 一 种 信息 展现 方式 ， 这 种 
方式 不 仅 有 用 且 信 息 充 实 ， 而 且 是 感性 的 、 令 人 回味 的 。 








第 14 章 ““ 和 矩阵 探秘 ”。Maximilian Schich 揭 秘 了 资料 数据 库 中 
由 于 管理 员 的 本 地 操作 和 数据 源 的 异 构 性 产生 的 一 些 非 直观 的 结构 特 
征 。 


第 15 章 “1994 年 ， 基于 《纽约 时 报 》 上 的 文章 搜索 API 的 数据 探 
索 ”。Jer Thorp 引 领 读 者 使 用 API 对 《纽约 时 报 》 资 料 库 的 数据 进行 
探索 和 可 视 化 。 


第 16 章 “《 纽 约 时 报 》 的 一 天 ”。Michael Young 和 Nick 
Bilton 描 述 了 《纽约 时 报 》 研 发 组 是 如 何 使 用 Python 和 Map/Reduce 来 
处 理 美国 以 及 全 世界 的 Web 站 点 和 手机 网 站 的 流量 数据 。 


第 17 半 “深入 揭秘 复杂 系统 ”。Lance Putnam, Graham 
Wakefield, Haru Ji, Basak Alper, Dennis Adderton 和 JoAnn 
Kuchera-Morin 教 授 描述 了 AlloSphere 项 目 通 过 尖端 高 科技 可 视 化 和 可 
听 化 技术 实现 的 非凡 的 科学 探索 。 


第 18 章 “解放 可视化 : 真正 的 黄金 标准 ”。Anders Persson 描 
述 了 使 用 新 的 成 像 技 术 来 收集 和 分 析 人 类 和 动物 尸体 数据 。 


第 19 章 ” “动画 可 视 化 : 机 遇 和 缺点 ”。Danyel Fisher 尝 试 提出 
设计 动画 可 视 化 的 一 种 框架 。 


第 20 章 ““ 带 索引 的 可 视 化 ”。Jessica Hagy 提 出 了 对 可 视 化 这 
头 “ 大 象 ” 的 各 个 方面 的 洞察 ， 因 此 可 以 对 全 局 有 更 透彻 的 理解 。 





本 书 使 用 的 体例 


本 书 遵循 以 下 字体 体例 : 


斜体 (〈Ialic) 


表示 新 的 术语 、URL、Email 地 址 、 文 件 名 和 文件 扩展 名 。 


ae TR 48 ( (Cnstant width) 








FA Re Pre De Be P MET ERER BR BA 
库 、 数 据 类 型 、 环 境 变 量 、 声 明和 关键 字 。 


等 宽 粗 体 字 ( (Cnstant width bold) 


显示 命令 或 者 其 他 应 该 由 用 户 逐 字 输 入 的 文本 。 


等 宽 斜 体 字 ( (Cnstant width italic) 


表示 必须 根据 用 户 提 供 的 值 或 者 由 上 下 文 决定 的 值 进行 其 代 的 文 


使 用 本 书 的 样 例 代码 





本 书 是 为 了 帮助 你 完成 工作 。 通 常 来 说 ， 你 可 以 在 你 的 程序 和 文 
档 中 使 用 本 书 的 代码 。 除 非 你 使 用 了 本 书 的 大 量 代 码 ， 人 否则 你 无 需 联 
系 我 们 以 获取 许可 。 例 如 ， 写 一 个 程序 用 到 本 书 的 几 段 代码 不 需要 获 
得 许可 ; 销售 和 分 发 0 Reilly 丛 书 的 例子 代码 光盘 需要 获得 许可 ; 引 
用 本 书 的 样 例 代码 来 解决 一 个 问题 不 需要 获得 许可 ;结合 本 书 的 大 量 
代码 到 你 的 产品 文档 中 需要 获得 许可 。 























我 们 不 要 求 你 (引用 本 书 时 ) 给 出 出 处 ， 但 是 如 果 你 这 么 做 ， 我 
们 对 此 表示 感谢 。 出 处 通常 包含 标题 、 作 者 、 出 版 社 和 ISBN。 例 如 : 


“Beautiful Visualization, edited by Julie Steele 和 Noah 
Iliinsky. Copyright 2010 0’ Reilly Media, Inc., 978-1-449- 
37986-5. ” 





如 果 你 觉得 你 对 本 书 样 例 代码 的 使 用 超出 了 这 里 给 出 的 许可 范 


请 和 我 们 联系 : permissions@oreilly. com。 


联系 方式 


请 把 对 本 书 的 评论 和 问题 发 给 出 版 社 ; 


美国 : 


0, Reilly Media, Inc. 


1005 Gravenstein Highway North Sebastopol, CA 95472 


HA: 





北京 市 西城 区 西直门 南大 街 2 号 成 饮 大 厦 C 座 807 室 (100035) 





奥 莱 利 技术 咨询 《北京 ) 有 限 公 司 





0 Reilly 的 每 一 本 书 都 有 专属 网 站 ， 你 可 以 在 那 找 到 关于 本 书 的 
相关 信息 ， 包 括 勘误 列表 、 示 例 代 人 码 以 及 其 他 的 信息 。 本 书 的 网 站 地 
址 是 : http://www. oreilly. com/catalog/9781449379865/ 


对 于 本 书 的 评论 和 技术 性 的 问题 ， 请 发 送 电子 邮件 到 : 


bookquestions@oreilly. com 


关于 本 书 的 更 多 信息 、 会 议 、 资 料 中 心 和 网 站 ， 请 访问 以 下 网 


http://www. oreilly. com 


http://www. oreilly. com. cn 


致谢 


首先 ， 我 们 要 感谢 各 位 作者 投入 这 么 多 的 时 间 和 精力 来 分 享 他 们 
的 智 意 。 他 们 共同 的 愿景 和 经 历 给 我 们 留 下 了 深刻 的 印象 ， 并 且 诉 用 
我 们 在 工作 中 的 创作 灵感 。 








Julie: 感谢 家 人 Barbara、Pete 和 Matt， 感 谢 他 们 一 直 以 来 的 支 
持 ， 感 谢 他 们 激发 了 我 对 世界 的 好 奇 心 。 感 谢 Martin， 感 谢 他 的 陪伴 
和 永远 跳动 着 的 思维 ， 他 给 我 带 来 了 很 多 灵感 。 





Noah: 感谢 在 过 去 这 些 年 来 帮助 我 探索 的 每 一 位 人 ， 尤 其 是 我 的 
老师 、 同 事 和 家 人 ， 他 们 总 是 给 我 提出 很 好 的 问题 ， 帮 助 我 更 好 地 思 
考 。 


Sle ws Noah Iliinsky 
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例 和 反例 ， 然 后 再 重点 说 明 实 现 可 视 化 之 美的 关键 步骤 “1 。 


fr} We 


当 我 们 认为 一 个 可 视 效 果 很 美 时 ， 其 中 有 什么 涵义 呢 ? 它 是 
“ 美 ”这 个 字 在 传统 意义 上 的 一 种 审美 判断 吗 ? 可 能 是 。 但 是 ， 当 我 
们 在 这 种 场景 下 讨论 可 视 化 时 ， 可 以 认为 “ 美 ”包含 4 个 关键 因素 ， 而 
审美 判断 仅仅 是 其 中 的 一 个 。 一 个 称 得 上 “ 美 ” 的 可 视 效 果 ， 它 不 但 
必须 美观 ， 而 且 也 必须 新 窜 、 充 实 和 局 效 。 











Dr all 





一 个 可 视 效 果 要 想 真 正 做 到 “ 美 ”， 它 必然 不 仅仅 是 作为 信息 渠 
道 ， 还 必须 具备 菏 些 新 颖 性 : 一 种 轿 新 的 视角 观察 数据 ， 或 者 一 种 风 
格 可 以 激发 读者 的 激情 从 而 达到 新 的 理解 高 度 。 众 所 周知 的 可 视 化 展 
MIA OARD 可 能 易于 理解 且 有 效 ， 但 是 在 绝 大 多 数 情 况 下 ， 
它们 无 法 使 我 们 感 党 充满 尺 奇 和 乐趣 。 通 间 情 况 下 ， 让 人 和 贯 心 悦目 的 





设计 并 非 是 为 了 新 颖 而 设计 ， 而 是 为 了 更 加 有 效 而 设计 ; 新 颖 性 只 是 
为 了 有 效 地 展示 对 世界 的 一 些 新 的 洞察 所 衍生 的 一 个 副产品 。 
OU]: 在 本 章 中 ， 可 视 化 ( (vsualization) 和 可 视 效 果 ( Cvsual) 两 个 


词 是 等 价 的 ， 表 示 所 有 结构 化 的 信息 表现 方式 ， 包 括 图 形 、 图 表 、 示 
意图 、 地 图 、 故 事情 节 图 以 及 不 是 很 正式 的 结构 化 插图 。 





对 于 任何 可 视 化 而 言 ， 不 论 美 丽 与 个 ， 其 成 功 的 关键 是 提供 了 获 
取信 息 的 途径 ， 人 们 可 以 借以 增长 知识 。 不 能 达到 这 个 目的 的 可 视 化 
征 失 败 的 。 信 息 传 递 能 力 是 判断 整体 成 功 与 否 的 最 重要 的 因素 ， 因 此 
它 是 可 视 化 设计 的 主要 驱动 力 。 





在 创造 一 个 有 效 的 视觉 效果 中 ， 需 要 考虑 几 十 个 因素 ， 如 场景 、 
感知 和 认 知 等 。 虽 然 其 中 很 多 因素 都 超出 了 本 书 的 讨论 范围 ， 我 们 将 
重点 考虑 两 个 特殊 因素 : 想 要 表达 的 信息 和 应 用 场景 。 除 了 关注 数据 
本 号 ， 同 时 还 关注 这 两 个 因素 ， 将 会 在 使 数据 可 视 化 更 有 效 、 成 功 和 
美丽 的 道路 上 走 得 更 远 ， 我 们 将 在 稍 后 部 分 对 这 两 个 因 妹 进行 更 为 深 
入 地 探讨 。 











Bl 


到 





美丽 的 可 视 化 具备 一 个 清晰 的 目标 、 传 递 一 种 信息 或 者 提供 一 个 
特别 的 角度 来 表达 信息 。 访 问 这 些 信息 必须 尽 可 能 地 直截了当 ， 而 不 
需要 牺牲 任何 必要 的 相关 复杂 性 。 


可 视 化 不 允许 包含 太 多 和 主题 无 关 的 内 容 或 信息 。 在 页 面 上 放大 
多 的 信息 可 能 会 〈 也 可 能 不 会 ) 给 读者 传递 更 多 的 信息 。 然 而 ， 展 现 
的 信息 越 多 ， 往 往 意 味 着 读者 需要 人 花费 更 长 的 时 间 来 得 找 需 要 的 那 部 
分 信息 。 不 相关 的 数据 如 同 噪音 ， 如 果 无 将 ， 则 很 可 能 有 害 。 





图 形 化 构建 一 一 包括 坐标 轴 、 布 局 、 形 状 、 色 彩 、 线 条 和 排版 
一 一 是 实现 可 视 化 之 美的 “必要 ”因素 而 不 是 “充分 ”因素 。 合 理 地 
利用 这 些 因素 来 引导 用 户 、 传 播 信 息 、 揭 示 关 系 、 突 出 结论 以 及 提高 
视 沉 魅力 是 必要 的 。 








图 形 方 面 的 设计 必须 主要 服务 于 表现 信息 这 个 目标 。 在 图 形 处 理 
中 ， 任 何 无 助 于 表现 信息 的 微小 方面 都 可 能 成 为 表现 信息 的 淤 在 障 
fg: 这 些 方面 可 能 会 降低 效率 ， 妨 碍 可 视 化 的 成 功 。 在 图 形 设计 部 ， 
通 第 是 展现 的 数据 越 少 ， 表 示 的 信息 越 丰 富 。 同 样 道理 ， 展 现 的 数据 
如 果 无 益 ， 则 很 可 能 有 害 。 




















通常 ， 新 绪 的 视觉 处 理 方式 是 创新 性 的 解决 方案 。 然 而 ， 如 果 一 
个 独特 的 设计 是 为 了 与 众 不 同 ， 而 且 其 新 前 性 与 使 数据 更 易于 访问 并 
没有 必然 联系 ， 那 么 几乎 可 以 确定 该 可 视 化 结果 是 更 难以 使 用 的 。 在 
最 坏 情 况 下 ， 新 雏 的 设计 只 不 过 是 自负 的 产物 ， 或 者 是 希望 创造 一 些 
视觉 上 令 人 印象 深刻 的 欲望 的 产物 ， 完 全 没有 考虑 到 目标 受众 、 使 用 
方式 或 功能 。 这 种 设计 对 任何 人 都 没有 使 用 价值 。 





学 习 经 典 











大 量 平庸 的 信息 可 视 化 完全 基于 标准 格式 。 基 本 的 可 视 化 展现 方 
式 ， 如 条 形 图 、 折 线 图 、 散 点 图 、 饼 图 、 组 织 流程 图 ， 以 及 其 他 一 些 
格式 是 可 以 很 容易 通过 各 种 软件 生成 的 。 这 些 格式 无 处 不 在 ， 并 且 提 
供 了 便捷 、 常 规 的 开始 使 用 方式 。 可 视 化 创造 者 和 消费 者 都 可 以 很 好 
地 理解 这 些 格式 的 理论 意义 和 使 用 方式 。 基 于 这 些 原因 ， 这 些 方法 是 
常见 可 视 化 问题 的 民 好 且 强 大 的 解决 方案 。 然 而 ， 使 用 这 些 方法 的 最 
佳 方式 局 限于 一 些 特定 的 数据 类 型 ， 而 且 其 标准 性 和 普遍 性 意味 着 它 
ANIA AST CILIA BT ATE 














“Gt” FSS AU E 的 美丽 的 可 视 化 则 不 同 于 上 述 传统 的 可 视 
化 。 它 们 不 必 源 于 创造 者 和 消费 者 所 熟悉 的 惯例 (虽然 它们 可 能 会 充 
分 利用 一 些 熟悉 的 视觉 因素 和 处 理 方法 ) ， 而 且 它 们 通常 与 期 望 的 数 
据 格 式 有 一 定 偏差 。 这 些 图 像 通 常 不 会 受 限 于 传统 的 可 视 化 协议 : E 
们 会 根据 非 传统 的 数据 类 型 进行 灵活 地 变动 ， 这 足以 使 人 惊喜 和 兴 
Fo 

















最 重要 的 是 ， 美 丽 的 可 视 化 可 以 反映 出 所 描述 数据 的 品质 ， 显 式 
地 揭示 源 数据 中 内 在 和 隐 式 的 属性 和 关系 。 读 者 了 解 了 这 些 属 性 和 关 
系 之 后 ， 可 以 因此 而 获取 新 的 知识 、 洞 察 力 和 乐趣 。 为 了 说 明 这 一 


点 ， 我 们 一 起 来 欣赏 两 个 同名 于 世 的 美丽 的 可 视 化 ， 观 察 它 们 是 如 何 
充分 利用 其 源 数据 结构 的 。 


TAH WHK 


我 们 探讨 的 第 一 个 例子 是 门 捷 列 夫 ( (Mndeleev) 的 元 素 周期 表 ， 
它 是 可 视 化 的 一 个 杰作 ， 一 张 表 中 圳 括 了 至 少 4 种 、 通 常 9 种 或 者 更 多 
类 型 的 数据 编码 〈 见 图 1-1) 。 元 素 的 属性 呈 周 期 性 变化 ， 将 所 有 元 素 
排列 成 一 张 表格 ， 以 表格 的 行 和 列表 示 属 性 的 变动 周期 。 这 是 关键 
扩 ， 因 此 我 再 重 述 一 这: 元素 周期 表 的 天 才 之 处 在 于 通过 元 素 的 编排 
组 织 揭示 了 元 素 之 间 的 相互 关系 以 及 周期 性 变化 的 物理 属性 。 表 的 结 
构 直 接 取决 于 其 所 表示 的 数据 。 在 这 张 表 上 上， 元 系 的 属性 一 目 了 然 ， 
因此 ， 借 助 这 张 表 就 可 以 快速 地 认识 和 理解 给 定 元 素 的 属性 特征 。 除 
此 之 外 ， 根 据 元 系 周 期 表 上 的 空白 ， 能 够 精确 地 预测 尚未 发 现 的 元 
素 。 























毋庸 置疑 ， 元 素 周期 表 信息 丰 曲 ， 其 高 效 性 也 是 可 以 证 明 的 ， 而 
且 为 在 此 之 前 一 直 没 有 民 好 的 可 视 化 解决 方案 的 问题 提供 了 一 种 全 新 
的 视角 。 基 于 以 上 种 种 原因 ， 元 素 周 期 表 被 视 为 复杂 数据 可 视 化 早期 
KITA YE 
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图 1-1: 门 捷 列 夫 的 元 素 周 期 表 〈( 见 彩 图 1) 


值得 指出 的 是 ， 为 达到 理想 的 效能 和 取得 非 几 的 成 绩 ， 元 素 周期 
表 所 需 的 图 形 化 处 理 绝对 是 最 少 的， 实际 上 ， 最 早 的 版 本 是 纯 文本 
的 ， 可 以 通过 打印 机 打印 出 来 。 强 大 的 图 形 设计 处 理 并 非 是 可 视 化 美 
丽 的 必要 条 件 。 


伦敦 地 铁 图 





第 二 个 美丽 的 可 视 化 经 典 是 Harry Beck 的 伦敦 地 铁 图 〈 见 图 1- 
2) 。 该 地 铁 图 (〈Tbe map) 受 到 可 视 化 的 惯例 和 标准 的 影响 ， 但 是 却 
没有 被 这 些 制图 者 的 陈规 所 束缚 。Beck 的 背景 是 画 电 路 草图 : 他 习惯 
于 绘制 45” 和 90” 的 电路 布局 图 ， 并 把 这 种 习惯 带 到 了 地 铁 图 的 绘制 
过 程 中 。 


这 种 风格 把 地 图 从 准确 的 代表 地 理 位 置 特征 的 束缚 中 解放 出 来 
了 ， 引 领 了 更 简单 地 反映 地 铁 旅行 实际 情况 的 抽象 视觉 风 格 : 在 地 铁 
系统 中 ， 人 们 最 关心 的 是 自己 和 系统 中 其 他 位 置 的 逻辑 关系 。 精 确 地 
显示 了 地 理 特征 的 其 他 地 图 可 以 帮助 你 找 出 在 地 面 上 可 以 做 什么 ， 但 
是 当 你 在 地 铁 里 时 ， 你 能 够 到 达 的 地 面 位 置 仅 仪 是 那些 地 铁 站 。 








Al 1-2: 伦敦 地 铁 图 : 2007 年 伦敦 地 铁 图 。 伦 敦 交 通 博物 馆 收 藏 (已 
授权 使 用 ， 见 彩 图 2) 


伦敦 地 铁 图 突出 显示 了 最 相关 的 信息 ， 剔 除了 很 多 不 相关 的 信 
电 ， 使 得 相关 的 数据 可 以 更 容易 被 访问 到 。 它 独特 鲜明 的 图 形 风 格 已 
经 成 为 标志 。 它 是 一 个 公认 的 杰作 ， 一 个 无 可 和 争议 的 美丽 的 可 视 化 。 








其 他 地 铁 图 和 周期 表 仅 仅 是 弱 仿 制品 


由 于 元 素 周 期 表 和 伦敦 地 铁 图 的 成 功 ， 其 他 数据 的 表现 方式 往往 
会 模仿 它们 的 风格 。 几 乎 你 能 想象 的 所 有 东西 部 有 周期 表 : 食品 、 饮 
料 、 动 物 、 爱 好 ， 更 为 可 翡 的 是 甚至 包含 了 可 视 化 方法 -1 。 所 有 这 
些 都 没有 抓 住 可 视 化 的 精髓 。 类 似 地 ， 地 铁 图 的 风格 也 用 于 表示 不 同 
风格 的 电影 “，、 技 术 公司 之 间 的 关系 O 、 公 司 并 购 时 间 表  ， 
以 及 其 他 城市 的 地 铁 系 统 。 


这 些 例 子 中 ， 关 于 伦敦 地 铁 图 的 风格 的 唯一 合理 的 使 用 方式 是 采 
用 该 风格 来 表示 其 他 城市 的 地 铁 图 (很 多 城市 ， 如 东 和 泵 、 况 斯 科 等 ， 
在 这 方面 都 做 得 非常 好 ) 。 对 该 风格 的 其 他 使 用 方式 都 没有 理解 其 产 
m 的 特别 之 处 : 产品 和 源 数 据 的 真正 关系 和 表现 形式 。 把 非 周 期 性 的 
数据 放 到 周期 表 中 就 好 比 根据 原子 数目 对 袜子 进行 排序 ， 这 人 么 做 没有 
任何 意义 ， 因 为 所 要 表示 的 结构 不 存在 。 通 过 这 些 经 典 的 风格 来 表示 
其 他 数据 也 许可 以 被 视 为 是 非常 有 创意 的 实践 ， 但 是 这 种 做 法 并 没有 
抓 住 原始 的 可 视 化 风格 的 精髓 和 价值 所 在 。 























|1] 见 http: //www. visual- 
literacy. org/periodic table/periodic table. html. 





|2] http: //blog. vodkaster. com/2009/06/25/the-top-250-best 
movies-of-all-time-map/. 

|3] 见 http: //informationarchitects. jp/wtm4/. 

|4] 见 http: //www. meettheboss. com/google-acquisitions—and- 
investments. html. 





如 何 实现 美丽 








显然 ， 对 于 大 量 不 太美 丽 的 可 视 化 而 言 ， 如 何 实现 可 视 化 之 美 并 
不 清晰 。 尽 管 如 此 ， 我 相信 存在 很 多 种 可 靠 的 方式 实现 可 视 化 之 美 ， 
即便 这 些 可 视 化 之 美 不 是 完全 确定 性 的 。 











走出 默认 风格 


SENN AY AY LCA ee BK ET al. OT AE. IRE CE RAN 
不 可 能 ) 使 用 默认 风格 达到 必要 的 新 活性 。 在 绝 大 多 数 情况 下 ， 格 式 
明确 的 风格 包含 明确 、 合 理 的 使 用 习惯 : 用 折线 图 表示 连续 数据 、 条 
形 图 表示 离散 数据 、 饼 图 表示 你 对 于 图 形 直观 呈现 的 优美 更 感 兴趣 而 
不 是 传递 信息 本 喘 。 





标准 的 格式 和 惯例 确实 也 有 优点 : DPR. ARS BUA TA 
悉 ， 且 具有 上 自明 性 。 绝 大 多 数 时 候 ， 应 该 遵从 并 充分 利用 这 些 惯例 。 
然而 ， 通 党 情况 下 ， 使 用 实用 型 的 格式 难以 实现 新 前 性， 默认 方式 很 
有 用 ， 但 是 存在 其 局 限 性 。 抛 莽 默 认 格 式 并 采用 更 好 、 更 强大 的 解决 
方案 必须 是 为 了 传递 信息 而 非 多 样 化 。 





在 不 适宜 的 情况 下 使 用 默认 的 表现 方式 ， 可 能 也 存在 陷阱 。 我 遇 
到 的 一 个 例子 是 一 个 制造 公司 的 Web 站 点 ， 在 该 站 点 中 ， 它 以 零售 商 为 











第 一 列 并 按照 其 名 字 的 字母 序 排列 ， 以 零售 和 商 们 所 在 的 城市 和 州 为 第 
二 列 。 这 个 系统 对 于 设计 它 的 人 来 说 当然 很 有 意义 ， 但 是 该 设计 并 没 
有 考虑 到 该 列表 会 如 何 使 用 。 如 有 果 我 已 经 知道 了 我 所 在 区 域 的 零售 
商 ， 按 照 字母 序 排列 将 很 有 用 。 





不 笠 的 是 ， 我 知道 自己 的 位 置 ， 但 是 不 知道 零售 商 的 名 称 。 在 这 
种 情况 下 ， 根 据 最 易 获 取 的 信息 一 一 位 置 排 序 的 列表 比 默 认 的 以 零售 
商 名 字 的 字母 序 排列 的 列表 将 会 更 有 意义 。 











使 可 视 化 信息 更 充实 





正如 我 之 前 所 提 到 的 ， 成 功 的 可 视 化 必须 是 信息 充实 且 实 用 的 。 
为 了 确保 可 视 化 的 实用 性 ， 有 两 个 方面 需要 考虑 : 预期 的 信息 和 使 用 
场合 。 考 察 并 整合 这 些 方 面 的 认识 通常 是 一 个 迭代 的 过 程 ， 随 着 设计 
的 演进 ， 会 涉及 在 这 些 因素 间 的 来 回 变 化 。 此 外 还 应 该 考虑 惯例 ， 以 
支持 设计 的 可 达 性 (谨慎 使 用 某 些 惯例 ， 可 以 帮助 用 户 对 数据 做 出 一 
些 假 定 ， 比 如 关于 美国 政治 上 使 用 红色 和 赣 色 来 表现 视觉 效果 ) o 





预期 的 信息 


首先 要 考虑 的 问题 是 你 想 要 传达 什么 知识 ， 想 要 回答 什么 问题 ， 
或 者 想 要 讲述 什么 故事 。 这 个 阶段 完全 是 抽象 地 规划 可 视 化 功能 ， 在 
这 个 阶段 开始 考虑 特定 的 格式 或 者 实现 细 市 还 有 些 为 时 过 早 。 这 是 一 
个 关键 步 又， 而 且 很 值得 投入 时 间 。 














一 旦 确定 了 可 视 化 要 传递 的 信息 或 者 要 达到 的 目标 ， 接 下 来 需要 
思考 的 是 如 何 使 用 可 视 化 。 读 者 和 他 们 的 需求 、 行 话 和 偏好 必须 纳入 
考虑 之 中 。 在 这 个 阶段 ， 明 确 用 户 需 要 完成 的 任务 或 者 明确 他 们 需要 
从 可 视 化 中 获取 的 知识 将 很 有 帮助 。 用 户 的 专业 知识 刚 开 始 可 能 不 能 
很 好 地 被 理解 ， 但 是 这 是 在 设计 过 程 中 需要 牢记 的 关键 因素 。 





如 果 你 最 终 不 能 以 读者 和 他 们 的 需求 的 方式 准确 地 曾 明 你 的 目 
标 ， 你 就 没有 目标 ， 也 无 法 来 衡量 你 到 底 成 功 与 个 。 上 文 所 举 的 两 个 
案例 的 目标 可 能 可 以 如 下 陈述 : “我 们 的 目标 是 ， 提 供 一 张 伦 敦 地 铁 
系统 的 视图 ， 使 得 乘客 可 以 轻松 地 选 定 乘 车 路 线 ”; 或 者 是 “我 的 目 
标 是 ， 以 一 种 可 以 很 清晰 地 显示 元 素 的 物理 特征 并 且 可 以 据 此 对 它们 
的 行为 作出 预测 的 方式 来 显示 元 素 。” 











一 旦 对 自己 的 信息 以 及 受众 的 需求 和 目标 有 了 清晰 的 理解 ， 束 可 
以 开始 考虑 你 的 数据 。 对 可 视 化 目标 的 理解 将 允许 你 有 效 地 选择 需要 





包含 哪些 方面 的 数据 ， 判 断 哪 些 方面 的 数据 是 没 用 的 、 甚 至 更 糟 的 是 


会 分 散 你 的 注意 力 。 


使 用 场景 。 意 识 到 以 下 两 种 设计 目的 在 可 视 化 上 的 区 别 也 是 很 重 
要 的 : 一 是 则 在 揭示 设计 师 所 知道 的 ， 二 是 为 了 帮助 未 知事 物 的 研究 
《虽然 设计 师 可 能 提前 猜想 到 其 结果 ) 。 前 者 是 演示 工具 ， 后 者 是 探 
索 工 具 。 这 两 种 设计 方式 都 可 能 采取 标准 的 或 者 非 传 统 的 方式 ， 而 且 
都 可 以 从 过 程 和 处 理 中 受益 。 然 而 ， 明 确 区 分 清楚 到 底 属 于 哪 种 可 视 
化 设计 类 型 是 非常 重要 的 ， 因 为 这 一 点 会 影响 后 续 的 所 有 设计 选择 。 




















旨 在 揭示 已 知事 物 的 可 视 化 是 无 处 不 在 的 。 只 要 一 方 癌 另 一 方 传 
达 信 息 的 方式 不 仅仅 是 文本 ， 就 存在 这 种 可 视 化 。 我 们 过 到 的 绝 大 多 
数 的 图 形 和 图 表 是 为 了 传达 特殊 的 见解 、 消 乱 或 者 潜在 奔 层 数据 中 的 
清晰 知识 : 团队 如 何 分 工 、 绩 效 如 何 划 分 、 公 司 如 何 组 织 、 给 定 的 输 
入 如 何 影 响 最 终结 果 ， 以 及 不 同 产 品 如 何 比 较 等 。 数 据 可 能 还 会 揭示 
其 他 的 知识 或 者 见解 ， 但 是 如 果 和 它们 对 于 当前 的 目标 不 重要 ， 该 设计 
束 不 需要 考虑 展示 这 些 消息 或 者 趋势 的 方式 。 因 此 ， 定 义 民 好 的 目标 
有 助 于 设计 这 些 可 视 化 的 过 程 。 











常 存在 于 更 专业 的 、 面 向 研究 的 科学 、 
情况 下 ， 其 目标 通 币 是 为 了 验证 假设 ， 
HA 


、 行 为 或 者 值得 注意 的 关系 。 如 果 对 





旨 在 促进 探索 的 可 视 化 通 
商业 和 其 他 领域 之 中 。 在 这 些 
回答 具体 问题 或 者 用 现任 何 趋 

















于 数据 可 能 揭示 的 规律 不 清楚 ， 设 计 这 些 可 视 化 会 变 得 更 具有 挑战 
性 。 在 答案 不 确定 的 情况 下 ， 设 计 一 些 不 同 的 可 视 化 可 能 是 有 用 的 。 








周期 表 是 这 些 目的 的 有 趣 的 混合 体 ， 因 为 它 是 用 于 对 已 知 和 未 知 
的 信息 进行 可 视 化 。 该 周期 表 的 结构 古 通 过 那 时 已 知 的 元 系 的 属性 定 
义 的 ， 因 此 在 该 情况 下 ， 它 对 现 有 已 知 的 知识 提供 了 参考 ， 正 如 今天 
所 使 用 的 。 然 而 ， 该 结构 导致 了 周期 表 中 产生 一 些 空白 ， 这 些 空白 后 
来 用 于 预测 未 发 现 的 元 素 的 存在 和 行为 。 在 后 一 种 模式 下 ， 表 格 是 研 
完 和 发 现 的 工具 。 











使 可 视 化 变 得 高 效 











在 确保 可 视 化 语 合 信息 量 之 后 ， 下 一 步 是 要 确保 它 是 高 效 的 。 当 
为 了 高 效 而 设计 时 ， 值 得 考虑 的 最 重要 的 方面 是 : 可 视 化 的 每 一 部 分 
内 容 部 将 使 用 户 花 费 更 长 的 时 间 来 找到 在 该 可 视 化 中 的 任何 元 素 。 页 
面 上 的 噪音 数据 和 视觉 噪音 越 少 ， 读 者 找到 他 们 需要 寻找 的 东西 就 越 
简单 。 如 果 你 所 明确 的 目标 无 法 证 明 某 些 内 容 存 在 的 必要 性 ， 试 着 去 


掉 这 些 内 容 。 


视觉 上 突出 重要 的 因素 


当 你 已 经 确定 了 必要 的 内容 ， 考 虑 其 中 的 茶 些 部 分 〈 东 种 特定 的 
关系 或 者 数据 点 ) 是 否 特别 相关 或 者 有 用 。 这 些 内 容 在 视觉 上 可 以 通 
过 几 种 方式 突出 显示 。 它 可 以 更 大 、 更 粗 、 更 膨 、 更 详细 ， 或 者 通过 
圆 北 、 箭 头 或 标签 来 标识 。 另 一 方面 ， 不 太 相 关 的 内 容 可 以 通过 较 柔 
和 的 色彩 弱化 显示 ， 线 条 更 细 或 者 缺乏 细节 人 信息。 例如， 在 伦敦 地 铁 
图 中 的 各 个 区 域 ， 在 视觉 上 没有 被 突出 显示 : 虽然 它们 确实 存在 ， 但 
征 其 相关 程度 显然 弱 于 那些 地 铁 线 路 和 站 点 。 











注意 ， 强 调 相 关 性 的 策略 通常 适用 于 数据 展现 ， 而 不 是 数据 研 
Fe: 设计 师 通 过 改变 突出 的 重点 ， 有 意 地 改变 传递 的 信息 。 此 外 ， 突 











出 未 知 数据 的 不 同方 面 或 者 子 集 是 发 现 可 能 淹没 在 噪音 数据 中 的 关系 
的 有 效 方式 。 


使 用 轴线 表达 含义 并 展示 自由 信息 





在 减少 可 视 化 噪音 数据 和 文本 数量 的 同时 仍 能 保留 足够 的 信息 的 
一 个 非常 棒 的 方法 是 定义 轴线 ， 然 后 使 用 这 些 轴线 来 指导 可 视 化 中 其 
他 模块 的 位 置 。 定 义 轴线 的 优雅 之 处 在 于 可 以 通过 轴线 对 可 视 化 中 的 
每 个 市 反 赋 值 ， 而 且 不 需要 涉及 额外 的 标注 操作 。 举 个 例子 ， 周 期 表 
是 由 定义 清晰 的 行 ( 周 期 和 列 ( 分 组 ) 组 成 的 。 可 以 通过 查看 一 个 
TRE 有 的 周期 和 所 属 的 分 组 来 了 解 关 于 该 元 素 的 很 多 信息 。 因 此 ， 
言 恩人 不 需要 显 式 地 展现 在 元 际 的 表格 单元 中 。 轴 线 还 可 以 用 于 定位 数 
据 集中 的 某 个 部 分 或 者 某 个 成 员 ， 比 如 查找 特定 周期 的 元 素 、 查 找 南 
方 的 一 些 州 或 者 查找 已 知 位 于 伦敦 的 西北 地 区 的 一 个 地 铁 站 。 定 义 展 
好 的 轴线 对 于 定性 数据 和 定量 数据 者 有效。 在 定性 环境 中 ， 轴 线 可 以 
定义 《无 序 的 或 者 杂乱 的 ) 领域 或 分 组 。 而 定量 的 轴线 可 以 提供 信 
恩 ， 文 持 相 关 值 的 查找 。 























相关 部 分 的 切 分 








减少 可 视 化 混乱 ， 使 得 信息 更 易于 理解 的 最 后 一 种 方式 是 ， 把 大 
数据 集 划分 成 多 个 相似 或 者 相关 的 子 集 并 分 别 可 视 化 。 如 果 可 以 获取 
的 信息 可 以 独立 使 用 ， 这 种 方式 效果 不 错 ; 而 如 果 需 要 和 其 他 数据 集 


中 一 起 使 用 ， 则 收益 会 很 小 。 其 中 的 风险 在 于 当 把 所 有 数据 集中 一 起 
显示 时 ， 可 能 会 发 现 看 起 来 不 相关 的 数据 集中 存在 的 相关 的 、 尚 未 家 
党 的 关联 关系 ， 这 种 关系 在 这 种 显示 方式 下 才 会 变 得 很 明显 。 








慎重 使 用 惯例 


当 已 经 充分 考察 预期 的 信息 、 应 用 场景 和 数据 对 你 的 特定 情景 的 
影响 时 ， 在 可 视 化 中 应 用 一 些 标准 的 展现 方式 和 惯例 是 值得 的 。 有 意 
识 地 、 恰 当地 运用 惯例 将 会 加 速 学 习 ， 便 于 读者 记忆 。 在 使 用 了 惯例 
的 情况 下 ， 只 要 和 前 述 的 儿 项 因素 没有 冲突 ， 采 用 惯例 会 非常 强大 且 
实用 。 本 文 所 举 的 两 个 例子 使 用 了 默认 的 、 传 统 的 表现 方式 来 表示 元 
素 符号 、 地 铁 线 色 彩 和 指南 针 方向 。 这 些 因 素 绝 大 部 分 看 起 来 太 目 然 
了 ， 不 值得 一 提 或 注意 ， 而 实际 情况 也 正 是 如 此 。 它 们 很 容易 个 理 
解 ， 而 且 可 以 精确 地 表达 消 轧 ， 用 户 可 以 轻易 迅速 地 理解 以 这 种 方式 
表达 的 信息 ， 而 且 几 乎 不 需要 用 户 或 者 设计 师 做 出 任何 额外 的 努力 。 
这 下 是 默认 方式 和 惯例 发 挥 作用 的 理想 方式 。 
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了 。 审 美元 素 可 以 是 纯粹 装饰 性 的 ， 或 者 是 增加 可 视 化 成 果 被 接纳 的 
机 会 的 又 一 个 因 系 。 在 茶 些 情况 下 ， 可 视 化 处 理 方式 可 以 对 信息 进行 
见 余 编码 ， 因 此 一 个 给 定 的 值 或 分 类 可 能 使 用 位 置 和 颜色 来 描述 ， 可 
能 使 用 文字 标签 和 形状 的 大 小 来 描述 ， 或 者 使 用 其 他 的 属性 对 来 描 
述 。 与 单一 编码 相 比 ， 元 余 编 码 可 以 帮助 读者 更 快 、 更 容易 地 区 分 感 
知 和 了 解 更 多 信息 。 


可 以 选择 一 些 其 他 方式 以 帮助 理解 : 熟悉 的 色彩 板 、 图 标 、 布 
局 ， 以 及 和 参考 文档 或 者 期 望 的 使 用 场景 相关 的 全 局 风格 。 熟 悉 的 外 
观 和 感觉 可 以 使 读者 更 轻松 或 者 舒适 地 接受 展现 处 理 的 信息 。 (但 
是 ， 要 注意 避免 仅仅 为 了 风格 本 里 而 使 用 亢 悉 的 风格 ， 避 人 免 像 那些 拙 
劣 地 模仿 周期 表 和 地 铁 图 的 设计 师 们 陷入 同样 的 陷阱 。) 


有 时 ， 设 计 师 可 能 想 要 做 出 某 些 选 择 以 干扰 一 些 或 者 所 有 的 可 视 
化 使 用 方式 。 这 可 能 是 通过 弱化 显示 其 他 信息 ， 以 此 为 代价 来 突出 某 
些 特定 的 消息 ， 为 了 以 艺术 性 的 表达 方式 、 为 了 使 可 视 化 适应 于 某 个 
有 限 的 空间 ， 或 者 只 是 为 了 使 可 视 化 更 让 人 划 心 悦目 或 者 感 兴趣 。 只 
要 它们 是 在 对 全 局 效用 的 影响 已 经 了 解 之 后 的 有 意 为 之 ， 这 些 都 是 合 
HPA 














付 诸 实践 





我 们 一 起 来 看 另 一 个 成 功 的、 数据 驱动 的 可 视 化 例子 ， 该 例子 把 
这 些 可 视 化 原则 付 诸 应 用 : 《纽约 时 报 》 的 2008 年 总 统 竞选 地 图 :1 
。 图 1-3 是 美国 的 标准 地 图 ， 每 个 州都 以 颜色 编码 来 表示 在 该 州 竞选 获 
胜 的 候选 人 (红色 表示 共和 党 候选 信 在 该 州 竞选 获胜 ， 蓝 色 表 示 民 主 
党 候选 人 获胜 ) 。 该 图 看 起 来 像 是 一 个 利用 了 默认 框架 的 非常 合理 的 
可 视 化 : 一 张 国 家 地 理 图 。 然 而 ， 实 际 情况 是 这 样 的 :准确 的 地 理 描 
述 ， 最 好 情况 下 这 些 信 息 充 其 量 也 只 是 无 关 紧 要 的 ， 而 最 坏 情 况 下 它 
们 可 能 会 产生 很 多 误导 。 











需要 270 张 电子 选票 才能 获胜 
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图 1-3: 地 理 上 准确 的 美国 竞选 投票 结果 图 ( 见 彩 图 3) 


新 泽 西 州 〈 呈 花生 形状 的 州 ， 在 宾夕法尼亚 州 的 东部 和 纽约 州 的 
南部 ， 面 积 太 小 以 致 无 法 标注 出 来 ) 的 面积 是 略 多 于 8700 平 方 刺 里。 
Idaho, Montana, Wyoming, North Dakota 和 South Dakota 这 5 个 州 的 
所 有 区 域 的 面积 总 共 超 过 47. 6 万 平方 英里 ， 大 约 是 新 泽 西 州 的 面积 的 
55 倍 ， 如 图 1-4 所 示 。 如 有 果 我 们 对 于 每 个 州 的 准确 的 地 理 、 形 状 、 大 小 
和 位 置 感 兴趣 ， 这 将 真 的 是 一 个 很 不 错 的 地 图 。 然 而 ， 在 总 统 苑 选 这 
样 的 背景 下 ， 我 们 关心 的 是 基于 每 个 州 的 选 紧 计 数 的 影响 。 实 际 上 ， 
以 上 5 个 州 的 选票 加 起 来 总 共 只 有 16 张 ， 仅 仅 比 新 译 西 州 的 15 张 选票 多 
出 一 张 而 已 。 因 此 ， 地 理 上 准确 的 地 图 实际 上 对 于 反映 选举 方面 的 影 
啊 是 非常 不 准确 的 。 








图 1-4: 5 个 州 和 新 泽 西 州 的 相对 面积 大 小 〈 见 彩 图 4) 


一 个 州 的 面积 和 它 对 选举 产生 的 影响 力 没 有 太 大 关系 ; 在 这 种 情 
况 下 ， 需 要 一 种 完全 不 同 的 可 视 化 来 准确 地 表示 相关 的 数据 ， 满 足 可 
视 化 需求 。 为 此 ，《 纽 约 时 报 》 还 生成 了 男 一 个 地 图 视图 ( 见 图 1- 
5) ， 在 该 地 图 中 ， 每 个 州 是 由 相当 于 选 紧 数 的 很 多 方块 组 成 。 和 州 的 
大 小 相 比 ， 这 种 选举 上 相应 的 视图 已 经 失去 了 地 理 准确 性 ， 而 考虑 到 
州 的 大 小 ， 则 几乎 失去 了 所 有 的 地 理 准确 性 。 
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图 1-5: 按 相 应 比例 加 权 的 美国 选票 的 结果 图 〈 见 彩 图 5) 


然而 ， 美 国 各 个 州 的 相对 位 置 基本 上 还 保留 着 ， 它 允许 读者 找到 
他 们 感 兴 趣 的 特定 的 州 并 探测 区 域 趋势 。 这 里 牺牲 地 理 位 置 的 好 处 是 
当 显 示 每 个 党 派 顾 得 的 选票 和 每 个 州 的 相对 影响 时 ， 该 可 视 化 是 非常 
准确 的 。 
个 州 的 大 小 做 比较 ， 可 以 准确 地 描述 15 到 16 个 竞选 联盟 ， 如 图 1-6 所 
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举 个 例子 ， 当 我 们 查看 新 的 地 图 ， 把 新 译 西 州 和 前 面 提 到 的 5 





你 可 能 已 经 注意 到 这 里 做 出 了 为 一 个 权衡 :因为 读者 无 法 看 清 每 
个 方块 的 边界 ， 他 们 无 法 简单 地 在 我 们 比较 的 每 个 领域 都 计数 15 到 16 
个 方块 。 此 外 ， 因 为 要 尽 可 能 地 维持 每 个 州 的 形状 ， 图 1-6 所 示 的 红色 
和 监 色 聚集 的 分 区 形状 区 别 显著 ， 使 得 难以 一 眼 比较 它们 的 相对 区 域 
面积 。 因 此 ， 这 有 是 充分 利用 惯例 〈 在 这 个 例子 中 是 各 个 州 的 形状 ) 达 
到 必要 的 平衡 以 及 高 效 地 、 直 日 地 表现 数据 的 一 个 很 好 的 例子 。 





该 可 视 化 的 成 功 之 处 在 于 设计 师 愿 意 摆脱 标准 的 、 默 认 的 地 图 ， 
从 而 创建 一 个 主要 基于 相关 的 源 数据 的 可 视 化 表示 。 其 结果 是 一 个 高 
度 定制 的 图 像 ， 该 图 像 对 于 预期 目标 更 精确 和 有 用 ， 即 使 不 能 很 好 地 
适应 于 典型 的 地 图 任务 ， 如 导航 。 在 那 种 情况 下 ， 它 类 似 于 地 铁 
图 ， 为 非 第 特殊 格式 的 信息 查找 进行 了 优化 ， 其 代价 是 牺牲 了 通用 的 
地 理 上 的 准确 性 。) 





[1] 数据 来 源 : 
http: //elections. nytimes. com/2008/president/whos-ahead/key- 
states/map. html. 


结束 语 


虽然 本 章 只 是 简要 介绍 了 设计 成 功 的 可 视 化 的 一 些 集 略 和 考虑 ， 
但 是 它 为 成 功 的 可 视 化 碗 定 了 坚实 的 基础 。 实 现 可 视 化 之 美的 核心 在 
于 专注 于 使 可 视 化 有 用 、 相 关 和 和 高效， 并且 使 用 默认 方式 和 有 意 的 艺 
术 解 决 方案 。 这 些 建议 将 帮助 我 们 确保 最 终 产 品 是 新 舌 、 充 实 和 美丽 
的 。 
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音 恩 可 视 化 这 门 艺术 在 某 种 程度 上 似 一 头 “ 怪 兽 ”。 很 少 有 学 科 
需要 其 从 业 人 员 有 具备 如 此 多 的 技能 。 最 佳 可 视 化 的 创建 者 不 仅 需要 只 
备 一 些 天 赋 ， 而 且 还 要 能 够 快速 地 在 不 同 技能 之 间 切 换 。 此 外 ， 在 完 
成 可 视 化 的 最 后 阶段 ， 创 建 者 可 能 会 发 现 前 期 舍弃 的 某 些 信息 对 于 充 
分 理解 作品 是 至 关 重 要 的 ， 也 可 能 发 现 前 期 的 某 个 计算 结果 是 不 精确 
的 。 














Ben Fry 在 他 的 优秀 著作 《Visualizing Data) (O Reilly 出 版 
社 ) 中 指出 创建 信息 可 视 化 包括 以 下 7 个 阶段 : 获取、 人 解析、 过滤 、 挖 
据 、 展 现 、 提 炼 和 交互 。 每 个 阶段 都 需要 具备 特定 水 平 的 技术 或 艺术 
才能 ， 而 信息 可 视 化 需要 兼 具 多 项 才能 。 在 数据 获取 和 解析 阶段 ， 信 
恩 可 视 化 艺术 家 可 能 已 经 开始 思考 应 该 如 何 和 它 交 互 。 而 在 对 展现 信 
恩 进 行 提炼 的 过 程 中 ， 他 也 可 能 会 回想 起 ， 在 过 滤 阶 段 的 某 个 处 理 步 
又 过 滤 掉 的 某 些 数 据 实际 上 是 相关 的 。 最 佳 可 视 化 往往 是 由 知识 面 宽 
广 、 多 才 多 艺 的 个 人 独立 构想 和 完成 ， 或 者 是 通过 一 个 能 够 紧密 协作 
的 小 团队 合力 完成 。 在 这 种 小 型 、 灵 活 的 环境 下 ， 各 种 才能 可 以 相互 























影 啊 促 进 ， 进 而 创造 出 令 人 震撼 的 图 像 或 交互 产品 ， 它 所 描述 概念 的 
方式 比 起 一 串 数字 让 人 感觉 更 贴切 自然 。 








创建 好 的 信息 可 视 化 需要 具备 很 多 才能 ， 虽 然 这 已 经 被 人 们 三 为 
认可 ， 但 是 仍然 存在 一 项 技能 在 更 正式 的 场合 下 往往 会 被 人 们 忽略 
一 一 可 能 因为 几乎 每 一 个 可 视 化 创造 者 都 潜意识 中 做 到 了 这 一 点 ， 也 
可 能 因为 它 是 整个 可 视 化 过 程 如 此 自然 而 然 的 一 个 部 分 以 至 于 看 起 来 
似乎 不 值 一 提 。 这 种 技能 就 是 讲述 故事 的 能 





故事 拥有 非凡 的 魔力 ， 可 以 让 我 们 集中 注意 力 ， 帮 助 我 们 理解 为 
什么 所 展现 的 数据 对 我 们 生活 的 某 些 方面 是 重要 的 或 相关 的 。 只 有 在 
特定 的 场景 下 ， 数 据 才 是 有 意义 的 ， 而 将 数据 作为 故事 的 一 部 分 是 让 
数据 产生 持久 效应 的 最 佳 方 式 。 最 有 效 的 信息 可 视 化 会 成 为 读者 (或 
者 用 户 ) 心中 的 故事 或 叙事 的 中 心情 节 。 

















不 是 每 一 个 信息 可 视 化 都 需要 讲述 一 个 故事 。 有 些 可 视 化 看 上 去 
就 很 美 ， 其 本 身 就 是 优雅 的 艺术 作品 。 然 而 ， 绝 大 部 分 可 视 化 都 有 一 
个 目标 ， 需 要 把 数据 置 于 某 种 故事 情节 中 以 有 意义 的 方式 进行 展示 。 


el 


\ 








问题 + 可 视 化 数据 + 场景 = 故事 


绝 大 多 数 可 视 化 故事 会 以 茶 类 问题 作为 开场 ， 引 导读 者 进入 茶 个 
主题 或 者 场景 中 ， 在 该 主题 或 场景 中 ， 数 据 所 绰 含 的 意义 最 为 丰富 。 








这 种 引导 方式 可 以 是 显 式 的 ， 也 可 以 是 隐 式 的 ， 但 是 其 场景 必须 清晰 
明确 。 作 为 开场 白 的 问题 包含 了 该 故事 的 前 提 和 引言 ， 引 领 读者 到 达 
数据 能 够 控制 整个 故事 线索 的 关键 点 上 。 





故事 的 多 个 关键 部 分 会 作为 一 些 组 成 环节 嵌入 到 可 视 化 的 特定 场 
景 中 。 我 们 经 癌 发 现 可 视 化 场景 是 作为 信息 图 片 或 者 可 视 化 的 介绍 文 
本 的 一 部 分 。 可 视 化 场景 提供 了 解答 下 述 问题 的 信息 : 








”我 们 正在 看 的 是 什么 数据 ? 


”这 份 数 据 存 在 于 什么 时 间 段 内 ? 





”哪些 显著 的 事件 或 者 变化 影响 了 这 些 数据 ? 


请 看 图 2-1 所 示 的 可 视 化 。 假 设 用 户 没 有 相应 的 背景 知识 ， 当 他 看 
到 该 图 时 ， 我 们 确定 他 会 理解 这 份 数据 是 按照 时 间 轴 映射 的 ， 而 该 时 
间 轴 与 茶 次 选举 有 关 。 除 此 之 外 ， 儿 乎 没有 任何 有 价值 的 场景 信息 可 
以 引导 用 户 去 并 清 该 可 视 化 的 含义 。 











如 果 更 进一步 ， 假 设 用 户 对 该 可 视 化 作品 上 展现 的 一 些 较为 有 名 
的 名 字 比 较 熟 悉 ， 我 们 就 可 以 假定 他 将 了 解 到 该 可 视 化 作品 展示 的 是 
2008 年 美国 总 统 选举 前 两 年 的 总 统 候选 人 的 一 些 衡量 指标 。 





只 有 当 用 户 点 击 了 右上 角 的 问号 标记 ， 才 会 显示 完整 的 场景 说 
明 ， 那 时 该 用 户 才 会 知道 这 个 可 视 化 作品 映射 的 是 每 位 总 统 候选 人 某 





一 周 在 《纽约 时 报 》 上 被 提 及 的 次 数 。 一 旦 了 解 了 这 个 信息 ， 用 户 就 
可 以 明白 该 可 视 化 粗略 地 反映 了 由 《纽约 时 报 》 撰 稿 人 诀 定 的 新 闻 对 
这 些 总 统 候选 人 的 关注 度 。 


Bill Richardson x ® nich Duncan Hunter Rudy Giuliani 
ennis Kucini 


Fred Thompson Mitt Romney 


Joe Biden 


Mike Huckabee 


John McCain 


Barack Obama 


For the week of: 11/13/2006 - 11/19/2006 





图 2-1: 设计 工具 Silverlight |) 生成 的 可 视 化 ( 见 彩 图 6) 


回 到 我 们 之 前 列 出 的 那些 问题 ， 我 们 现在 已 经 知道 正在 看 什么 数 
据 以 及 其 时 间 范 围 。 该 可 视 化 是 交互 式 的 : 如 果 用 户 点 击 最 上 方 的 








Play (播放 〉 按钮 ， 它 会 沿 着 时 间 轴 顺 次 弹出 一 些 点 ， 显 示 可 能 以 某 
种 方式 对 数据 产生 了 影响 的 重要 事件 ( 见 图 2-2)。 





除了 这 些 线索 ， 用 户 还 可 以 把 自己 所 知 的 总 统 竞 选 知 识 作 为 该 数 
据 的 额外 的 场景 信息 。 他 可 能 回想 起 民主 党 内 竞选 时 发 生 在 希拉 里 。 
克林顿 ( (Hllary Clinton) 5E imi. REH ( (Brack 0bama) 间 的 激 
烈 角 逐 ， 这 一 点 在 现实 中 的 反映 就 是 从 2008 年 4 月 到 5 月 ， 他 们 俩 都 保 
持 了 很 高 的 新 闻 EE, MA ZIR C CJhn McCain) 因为 早 在 3 月 
初 即 已 经 确保 了 在 共和 党 内 竞选 的 胜利 地 位 ， 因 而 在 那 段 时 间 的 新 闻 
关注 度 上 落后 于 他 们 俩 。 





当 提出 一 个 问题 “在 2008 年 总 统 竞选 过 程 中 ，《 纽 约 时 报 》 提 及 
各 个 候选 人 的 频 度 有 多 高 ? ”之 后 ， 就 开始 引发 一 个 故事 。 该 可 视 化 
为 这 个 故事 提供 了 吸引 人 心 的 可 视 化 部 分 ， 帮 助 用 户 在 一 分 钟 内 重 温 
这 一 历时 两 年 的 总 统 竞 选 大 戏 。 


2008 


o—d}-o 
图 2-2: 这 个 视觉 特效 吸引 人 们 注意 那些 可 能 影响 候选 人 受到 的 新 闻 


关注 度 的 重要 事件 
|1] 参见 http: //tr. im/12Gb。 


创建 有 效 的 可 视 化 的 步骤 
在 创建 信息 可 视 化 时 ， 我 通常 会 按照 下 述 的 几 个 关键 步骤 进行 : 
1. 制定 问题 。 
2. 收集 数据 。 


3. 应 用 一 种 可 视 化 展现 方式 。 


制定 问题 





提出 驱动 所 要 讲述 的 故事 的 问题 ， 这 并 非 一 定 需 要 在 可 视 化 之 旅 
的 开始 阶段 完成 。 在 你 的 大 脑 中 己 经 有 一 个 确定 性 的 问题 之 前 ， 开 始 
深入 挖掘 数据 也 不 是 一 件 坏 事 。 通 常情 况 下 ， 只 有 妆 我 们 对 数据 有 了 
深刻 的 理解 之 后 ， 我 们 才能 确定 如 何 提出 恰当 的 问题 。 尽 管 如 此 ， 在 
收集 和 过 滤 必 要 的 数据 时 ， 提 出 一 个 问题 “或 者 至 少 大 脑 中 思索 一 个 
或 者 几 个 问题 ) 会 大 有 神 益 。 





随 着 收集 到 更 多 的 数据 ， 你 可 能 考虑 从 某 个 主题 切入 ， 专 注 于 数 
据 搜 索 和 问题 提炼 。 举 个 例子 ， 假 设 我 们 想 表 达 这 样 一 个 观点 : 执行 
美国 AH 普 碍 是 一 项 庞大 的 任务 。 对 于 局 动 数据 搜索 而 言 ， 这 是 个 不 
错 的 主题 ， 因 为 其 涵 善 面 足够 宽广 ， 所 以 存在 很 多 数据 能 够 提供 场 








Ro LAAMA. RAIA AFR BA, HAUET PRL 
的 一 个 可 视 化 : 


”收集 到 的 调查 问 苍 的 数量 。 


。 使 用 过 的 铅笔 的 数量 。 


”人口 普查 工作 人 员 的 行程 英里 数 。 


我 最 喜欢 的 与 美国 人 口 普查 相关 的 数据 是 美国 联邦 雇员 数 。 统 计 
BURMAN SARS AG 普查 年 的 3 月 到 7 月 间 ， 联 邦 雇员 数 从 20 万 闫 升 到 
30 万 。 而 当 人 口 普 奏 结束 后 ， 雇 员 数 又 会 回落 。 








我 们 最 终 所 选用 的 具体 问题 对 最 终 的 可 视 化 展现 有 很 大 影响 。 举 
个 例子 ， 我 们 可 能 会 问 : “一 次 人 口 普查 所 需 的 全 部 信息 需要 多 少 纸 
张 来 记录 ?”， 然 后 展示 调查 一 座 小 城市 所 需 的 一 操 纸 张 ， 或 者 我 们 
可 能 这 样 问 : “对 这 个 国家 的 所 有 人 点 一 次 名 ， 需 要 人 花 绚 多 少 人 
力 ? ”， 然 后 用 一 些 图 像 来 展示 在 人 口 普查 期 间 联邦 雇员 数 的 上 升 。 
这 些 问题 都 和 美国 人 口 普查 范畴 下 最 原始 的 话题 相关 ， 但 是 由 于 选用 
了 不 同 的 数据 集 ， 生 成 的 可 视 化 作品 也 完全 不 同 。 























当 为 创建 信息 可 视 化 而 提出 问题 时 ， 我 们 应 该 尽 可 能 地 关注 以 数 
据 为 中 心 的 问题 。 那 些 以 “在 哪里 ”( (were)、“ 什 么 时 间 ” 
( (wen) 、“ 有 多 少 ”( (hw mech 或 者 “有 多 频繁 ”( (hw often) F 


头 的 问题 通常 都 是 不 错 的 开始 : 它们 使 我 们 专注 于 在 特定 的 参数 集合 
内 碍 找 数 据 ， 因 此 更 有 可 能 找到 适用 于 可 视 化 的 数据 。 





对 于 以 “为 什么 ”( Gy) 开头 的 问题 ， 需 要 格外 小 心 。 它 意味 着 
你 开始 从 对 数据 的 较为 正式 的 描述 转 入 数据 分 析 。 





收集 数据 





准确 地 找到 所 需 的 数据 是 一 个 非常 困难 的 任务 。 通 党 ， 最 好 从 已 
经 可 用 的 数据 着 手 并 尽量 找到 一 种 方式 来 描绘 它 ， 而 不 是 尝试 自己 去 
收集 数据 。 也 就 是 说 ， 最 好 从 一 个 数据 集 出 发 〈 正 如 之 前 所 提 到 
的 ) ， 从 数据 中 找到 一 些 模 式 之 后 再 构建 问题 。 如 果 你 是 为 了 一 个 既 
定 的 目标 创建 一 个 数据 可 视 化 ， 而 不 是 出 于 兴趣 或 者 纯粹 的 好 奇 心 ， 
那么 很 有 可 能 你 已 经 有 了 一 个 可 用 的 数据 集 。 尺 管 如 此 ， 仍 然 存 在 一 
些 数 据 集 ， 它 们 可 能 可 以 在 工作 的 某 些 方面 激发 你 的 灵感 或 者 提供 茶 


些 信 A o 








有 很 多 不 错 的 地 方 提 供 了 可 以 访问 的 数据 。 其 中 一 个 最 大 、 最 丰 
富 的 资源 库 是 Data. gov 网 站 ( (htp: //www. data. gov) 。 这 个 站 点 上 存 
放 了 庞大 的 数据 集合 ， 它 涵盖 了 大 量 领域 ， 既 包括 乌 类 的 迁徙 ， 也 包 
括 专 利 目录 ， 还 包括 国债 收益 统计 和 联邦 预算 数据 。 其 他 优秀 的 数据 
源 还 包括 : 








。 美国 人 口 普查 局 ( (htp: //www. census. gov) 的 网 站 上 提供 了 种 
类 广泛 的 人 口 统计 和 地 理 信息 数据 。 


。 美国 劳动 统计 局 ( (htp: //www. bls. gov) 提供 了 美国 就 业 方面 
的 广泛 数据 〈 点 击 “Databases and Tables” 标 签 ， 然 后 同 下 滚动 页 


面 到 历史 新 闻 发 布 表单 ( (Hstorical News Release Tables) 处， 可 以 
找到 最 简单 的 数据 访问 入 口 ) 。 


《纽约 时 报 》 的 API(http: //developer. nytimes. com) 提供 了 
对 海量 数据 集 易 于 访问 的 API 接 口 ， 包 括 国会 投票 、 畅 销 书 列表 、 文 章 
检索 、 、 纽 约 市 的 房地产 开盘 和 销售 信息 等 。 











一 旦 获取 到 了 原始 数据 ， 就 需要 考虑 数据 的 解析 、 组 织 、 分 组 或 
者 修改 ， 以 便 可 以 从 中 识别 出 模式 或 者 抽取 出 想 要 描绘 的 特定 信息 。 
过 程 通 常 束 是 众所周知 的 “数据 再 加 工 ”( (dta munging) 过 程 ， 
而 且 通 常 是 即时 地 “玩弄 ”数据 直到 感 兴趣 的 模式 出 现 。 如 果 感 觉 这 
个 过 程 听 起 来 有 些 含糊 或 者 不 够 具体 ， 不 要 担心 ， 在 下 一 小 节 中 我 们 
将 以 实践 指南 的 方式 完整 地 介绍 一 个 数据 再 加 工 的 例子 。 





应 用 一 种 可 视 化 展现 方式 





既然 我 们 获取 到 了 数据 ， 接 下 来 需要 做 的 就 是 确定 应 该 如 何 描述 
它 。 这 意味 着 需要 决定 采用 何 种 可 视 化 展现 方式 来 描述 数据 才能 帮助 
读者 更 好 地 理解 。 








一 种 可 视 化 展现 方式 就 是 某 种 可 视 化 维度 ， 不 同 的 数据 以 不 同 的 
维度 展示 。 举 个 例子 ， 一 个 XY 坐标 图 就 是 一 种 简单 的 可 视 化 展现 方 
式 ， 它 把 x, y 数 据点 映射 到 一 个 二 维 平 面 中 。 当 对 足够 多 的 数据 点 进行 
映 冉 后 ， 即 使 原始 数据 本 身 没 有 可 以 立即 识别 的 模式 ， 可 能 还 是 会 产 
生 显 而 易 见 的 可 视 化 模式 。 








让 我 们 一 起 碍 看 一 些 最 利用 的 可 视 化 展现 方式 。 


RY 





尺寸 可 能 是 最 常用 的 可 视 化 展现 方式 ， 而 且 是 理所当然 的 。 当 辨 
别 两 个 对 象 时 ， 我 们 可 以 通过 尺寸 来 快速 地 区 分 它们 。 此 外 ， 使 用 尺 
二 可 以 加 快 理解 两 组 不 熟悉 的 数字 之 间 的 区 别 。 听 说 或 知道 美沙 酮 
(一 种 镇 静 剂 一 一 译 者 注 ) 是 英国 最 致命 的 毒品 是 一 回 事 ， 而 看 到 如 
图 2-3 所 示 的 因 吸 食 美 沙 酮 而 致死 的 人 数 与 吸食 其 他 毒品 而 致死 人 数 的 
信息 则 完全 是 男 一 回 事 儿 。 
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可 卡 因 23 © 





图 2-3: 来 源 于 David McCandless 对 “世界 上 最 致命 的 毒品 ”的 信息 
可 视 化 








里 然 尺 寸 是 一 种 非常 实用 且 直 观 的 展现 方式 ， 但 它 也 经 常 被 小 
用 。 很 多 结构 不 民 的 图 形 只 是 起 到 了 误导 和 混 消 视听 的 作用 ， 这 往往 
是 因为 其 作者 虽然 想 要 对 一 些 数据 进行 可 视 化 ， 但 是 却 仅仅 只 知道 一 
种 可 以 展示 它们 的 可 视 化 方式 。 











色彩 


色彩 是 展现 大 数据 集 的 一 种 优秀 方式 。 我 们 可 以 通过 色彩 识别 出 
很 多 层次 和 色调 ， 可 以 以 很 高 的 分 辨 率 来 查看 区 别 。 这 一 点 使 得 色彩 
成 为 展现 宏观 趋势 的 必然 选择 ， 这 种 用 法 我 们 经 常会 在 气象 图 中 看 
到 。 由 于 这 个 原因 ， 色彩 通常 被 用 于 标识 大 数据 集中 存在 的 模式 和 异 
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图 2-4 是 与 股票 相关 的 历时 3 个 月 的 一 组 数据 缩放 图 。 








图 2-4: Motley Fool CAPS |!) 网 站 上 在 几 个 月 内 关注 度 最 高 的 30 只 
股票 ， 使 用 红 绿 色 阶 对 其 进行 了 可 视 化 〈 见 彩 图 7) 


虽然 该 可 视 化 因为 类 型 太 小 以 致 无 法 阅读 ， 但 我 们 却 可 以 很 容易 
识别 出 正 增长 或 者 负增长 的 行 。 我 们 可 以 很 轻松 地 对 数据 中 的 趋势 做 
出 全 面 的 评估 。 





对 于 规模 较 小 的 数据 集 或 者 相互 之 间 区 分 度 不 大 的 数据 ， 色 彩 的 
作用 就 不 明显 。 如 果 数 据 中 没有 鲜明 的 色 阶 变化 ， 即 使 是 训练 有 素 的 
人 ， 也 难以 识别 出 其 中 重要 的 区 别 。 


例如 ， 假 设 我 们 有 个 范围 1 一 100 的 数据 集 ， 以 及 一 个 色彩 板 ， 其 
颜色 变换 从 红色 〈 表 示 1) 到 黄色 (50) 到 绿色 (100) 。 在 这 样 的 色 
彩 板 中 ， 对 于 图 2-5 中 所 示 的 只 有 10 个 百分点 之 差 的 两 个 数据 :2 ， 正 
如 你 所 观察 到 的 ， 其 区 分 度 很 小 ， 而 且 可 能 对 于 很 多 读者 都 难以 分 


45% 55% 100% 
图 2-5: 在 色彩 可 视 化 中 ， 色 彩 图 像 在 45% 和 55% 范 围 之 间 的 区 别 的 展 
现 〈 见 彩 图 8) 


如 果 你 正在 创建 可 视 化 ， 确 保 读 者 能 够 区 分 出 在 45% 和 55% 的 数据 
点 是 很 重要 的 。 为 此 你 可 能 需要 改变 一 些 颜色 需要 发 生变 换 的 点 ， 或 
者 完全 不 拘泥 于 色彩 展现 ， 不 采用 色彩 作为 主要 的 展现 方式 。 


还 应 该 增加 文字 说 明 以 帮助 色盲 的 读者 ， 因 为 几乎 每 10 个 人 当中 
就 有 一 个 是 色盲 。 如 果 你 希望 你 的 可 视 化 能 够 覆盖 尽 可 能 多 的 读者 ， 
你 可 能 会 考虑 使 用 黑白 色 阶 ， 而 不 是 红 绿 色 阶 。 关 于 设计 和 人 色盲 方面 
的 更 多 信息 ， 请 访问 We Are Colorblind (我 们 是 色盲 ) 网 站 
( Chtp: //wearecolorblind. com) ， 该 Web 站 点 专门 为 色盲 人 士 而 设 
it. 





[1] Motley Fool CAPS 是 一 个 理财 咨询 网 站 ， 其 主页 是 
http: //caps. fool. com/. 
(2) 指 的 是 图 2-5 中 位 于 中 间 的 45% 和 55% 的 两 个 数据 。 
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基于 位 置 的 展现 方式 就 是 把 数据 和 某 些 类 型 的 地 图 关联 起 来 ， 或 
者 把 它 和 一 个 真实 或 虚拟 地 方 相 关 的 可 视 化 元 素 进行 关联 。 日 常生 活 
中 基于 位 置 的 可 视 化 的 一 个 例子 是 ， 为 了 方便 选择 座位 而 提供 给 顾客 
的 关于 飞机 或 剧院 的 一 个 简单 的 轮 廉 。 








在 图 2-6 中 ， 我 们 观察 到 在 美国 Florida 州 的 地 图 上 显示 的 从 1996 
年 到 2008 年 的 各 个 郡 的 犯罪 比率 。 
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图 2-6: Florida 州 各 个 郡 的 地 图 ， 通 过 不 同 的 颜色 深度 来 表示 每 个 
郡 的 犯罪 比率 ( 见 彩 图 9) 








当 观 察 者 对 于 所 描述 的 位 置 比 较 熟 悉 时 ， 位 置 展现 方式 对 于 可 视 
化 会 特别 有 价值 。 只 要 对 所 展现 的 位 置 有 一 定 的 了 解 ， 观 察 者 就 可 以 








把 他 们 的 个 人 背景 和 可 视 化 关联 起 来 ， 并 且 可 以 基于 对 该 地 区 的 个 人 


经 验 来 下 定 结论 。 
网 络 


网 络 展现 方式 显示 了 数据 点 之 间 的 二 元 连接 ， 在 查看 这 些 数据 点 
之 间 的 关系 时 很 有 帮助 。 在 线 网 络 可 视 化 如 雨 后 春 敌 ， 它 们 使 得 人 们 
可 以 看 到 他 们 在 Facebook 上 的 朋友 或 者 在 微 博 Twitter 上 的 关注 者 的 地 
图 Ctl , 








图 2-7 显 示 了 我 的 Facebook 朋 友 以 及 他 们 当中 彼此 互 为 朋友 关系 的 
人 数 的 网 络 可 视 化 。 


通过 该 网 络 映 射 ， 我 们 可 以 一 目 了 然 地 看 出 我 所 拥有 《或 被 拥 
A) 的 不 同 的 社交 网 络 。 此 外 ， 各 个 组 的 密度 和 它们 的 社交 亲密 关系 
的 对 应 非常 吻合 。 





对 于 网 络 可 视 化 ， 需 要 记 住 的 一 点 是 ， 如 果 这 些 可 视 化 不 是 精心 
构建 的 ， 那 么 成 干 上 万 的 数据 点 可 能 会 变 成 视觉 次 乱 的 连接 ， 它 们 对 
于 我 们 增强 了 解 这 些 连接 的 涵义 是 没有 帮助 的 。 


盐湖 城 朋友 、、 


FREMA 
meee 
暑期 夏令 营 朋 友 


图 2-7: 我 的 Facebook 朋 友 关 系 的 网 络 可 视 化 的 关系 泻 染 图 


时 间 





随时 间 变 化 的 数据 (股票 报价 、 选 举 结果 等 ) 通常 是 根据 时 间 轴 
进行 描绘 。 然 而 ， 最 近 几 年 ， 具 备 动画 功能 的 软件 使 我 们 能 够 以 不 同 
的 方式 来 描绘 这 些 数据 。 像 《纽约 时 报 》 的 动画 “Twitter Chatter 
During the Super Bowl” ©! 〈 见 图 2-8) 把 一 段 较 长 的 时 间 进 行 压 
缩 ， 从 而 使 得 我 们 可 以 在 加 速 环 境 中 观察 到 数据 的 变化 。 





点 击 动画 左上 角 的 Play( 播 放 ) 按钮 启动 动画 ， 在 全 国 范围 内 ， 
和 美国 橄榄 球 超 级 杯 大 赛 ( (Sper Bowl) 相关 的 tweet 〈 微 博 ) 消息 中 
使 用 最 频繁 的 单词 ， 在 比赛 过 程 中 会 随 着 其 使 用 频率 的 增长 或 减少 而 
被 展示 出 来 。 


该 可 视 化 为 用 户 提供 了 一 系列 有 用 的 随时 间 变 化 的 脉络 线索 ， 显 
示 了 在 那 时 发 生 的 主要 事件 。 通 过 这 种 方式 ， 作 者 提供 了 宝贵 的 背景 
信息 ， 使 用 户 无 须 特意 记 住 比赛 是 如 何 结束 的 。 相 反 ， 他 们 可 以 专注 
于 全 国 范 围 内 的 tweet 消 息 中 所 用 到 的 单词 ， 当 有 重要 事件 驱动 数据 
时 ， 让 应 用 给 他 们 发 出 报警 。 
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图 2-8: 《纽约 时 报 》 对 和 2009 年 美国 橄榄 球 超级 杯 大 赛 相关 的 
tweet 消 息 中 使 用 最 频繁 的 单词 的 可 视 化 





应 用 多 种 可 视 化 展现 方式 











很 多 优秀 的 信息 可 视 化 使 用 多 种 视觉 展现 方式 来 全 面 展 现 数据 。 
在 一 个 在 线 应 用 
NameVoyager (http: //www. babynamewizard. com/voyager) 中 ， 用 户 可 
以 输入 一 个 名 称 的 前 几 个 字母 ， 然 后 查看 历史 上 有 多 少 人 以 该 字母 为 
开头 给 他 们 的 孩子 命名 《〈 见 图 2-9) 。 
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图 2-9: NameVoyager 的 孩子 名 字 探 索 图 显示 的 逐年 的 名 字 频 率 〈 见 
彩 图 10) 


该 图 使 用 两 个 维度 进行 可 视 化 。 第 一 个 维度 是 时 间 : 通过 时 间 
轴 ， 对 以 输入 的 字母 为 开头 的 名 字 的 使 用 频率 进行 展现 。 第 二 个 维度 





是 大 小 : 图 像 上 的 阴影 区 域 表示 在 茶 些 年 份 以 茶 些 名 字 命 名 的 孩子 的 
个 数 。 





这 种 特定 类 型 的 图 形 被 称 为 堆 且 时间 序列 ， 它 是 一 种 非常 标准 的 
可 视 化 方式 ， 将 多 种 可 视 化 方法 以 相互 结合 却 又 各 目 独 立 的 方式 应 用 
于 信息 的 多 维 可 视 化 。 




















[1] Facebook 是 当前 美国 最 火 的 社交 网 站 ，Twitter 是 当前 美国 最 火 的 
微 博 。 

2] 参见 

http: //www. nytimes. com/interactive/2009/02/02/sports/2009020 
2 superbowl twitter. html. 


可 视 化 创建 实践 





到 目前 为 止 ， 我 们 已 经 讨论 了 通 第 情况 下 信息 可 视 化 的 一 些 基 础 
知识 ， 现 在 一 起 来 完成 一 个 可 视 化 的 构建 。 我 们 将 创建 一 个 静态 可 视 
化 ， 通 常 称 为 信息 图 表 ( (ifographic) 。 为 了 完成 这 个 可 视 化 实例 ， 
我 们 需要 以 下 工具 : 








。 Microsoft Excel (或 者 Gdoc) 

e Adobe Photoshop (或 者 6IMP， 一 个 免费 的 图 像 处 理 程 序 ) 

为 了 尽 可 能 地 重 现 该 过 程 ， 我 将 以 实际 事件 发 生 的 顺序 来 描述 这 
个 过 程 ， 而 不 是 以 之 前 的 “问题 一 数据 一 展现 ”的 方式 来 描述 。 


数据 任务 


在 构建 这 个 可 视 化 时 ， 我 从 数据 处 理 开始 ， 随 看 信息 逐渐 清晰 起 
来 ， 再 制定 问题 。 因 为 数据 自选 过 程 通 常 是 非常 随机 的 ， 我 将 简单 描 
述 通 第 情况 下 的 及 现 。 这 些 内 容 的 细节 将 在 本 市 后 面 介绍 。 





收集 数据 


在 本 教程 中 ， 我 决定 使 用 简单 易 用 、 可 公开 访问 的 数据 ， 因 此 主 
要 得 看 的 是 由 美国 政府 收集 的 以 及 为 了 透明 化 而 直接 可 在 线 访问 的 各 
种 数据 。 通 过 “汽车 津贴 折扣 系统 ”( (Cr Allowance Rebate 
System, CARS)， 即 “ 旧 车 换 现金 ”计划 ， 我 从 该 系统 获取 到 的 汽车 交 
易 和 购买 的 数据 开始 着 手 。 我 使 用 的 数据 可 以 从 两 个 Excel 表 单 文件 
( Chtp: //www. cars. gov/carsreport) 中 获取 。 该 数据 源 网 站 还 提供 


CSV 或 MDB 格 式 。 





对 数据 排序 : 发 现 版 


当 我 们 完成 可 视 化 时 ， 我 们 希望 它 能 够 为 这 个 数据 集 的 各 个 交易 
提供 一 些 洞察 力 。 想 象 一 下 ， 有 个 人 开 着 一 辆 破旧 的 车 ， 目 思 目 付 着 
很 快 就 能 够 摆脱 这 辆 义 老 叉 破 的 汽车 ， 换 成 一 辆 畦 新 的 汽车 。 











她 正在 开 着 一 辆 什么 样 的 车 呢 ? 她 是 否 期 望 寻找 一 辆 相似 的 但 是 
更 新 、 更 局 效 的 车 昵 (“以 旧 换 新 ”〉 ? 或 者 她 是 否 希 望 把 汽车 换 成 
一 些 完全 不 同 的 车 (更 像 是 “两 厢 的 SUV” 这 一 类 的 车 ) ? 





我 们 要 碍 看 的 数据 包含 超过 65 万 的 个 人 故事 ， 每 个 故事 都 需要 动 
机 、 驱 动 、 时 间 和 付出 。 我 们 无 法 从 数据 中 梳理 出 每 个 人 的 故事 ， 但 
是 我 们 的 可 视 化 可 以 有 助 于 揭示 这 些 人 所 做 出 选择 的 背后 所 经 涵 的 故 





事 。 我 们 的 目标 是 找到 一 种 方式 来 讲述 一 个 故事 ， 使 得 该 故事 对 于 用 
户 / 观 察 者 有 趣 而 又 新 鲜 。 











以 下 是 我 为 了 发 现 故事 对 数据 进行 排序 和 过 沽 的 一 些 处 理 步 又 。 


当下 载 完 数据 集 ， 我 开始 得 看 回 购 的 数据 ， 试 着 通过 很 多 种 不 同 
方式 对 它们 进行 分 组 。 对 汽车 型 号 进行 分 组 刚 开 始 看 起 来 很 有 意思 ， 
但 是 这 个 过 程 很 乏味 ， 因 为 汽车 是 通过 发 动机 和 变速 器 进行 分 组 ， 因 
此 相同 型 号 的 汽车 可 能 存在 一 些 不 同 的 登记 方式 。 

















然而 ， 在 通过 汽车 型 号 查看 汽车 的 过 程 中 ， 我 发 现 茶 些 汽 车 型 号 
有 非常 高 的 回 购 量 ， 我 对 此 感到 很 震 怀 。 我 开始 好 奇人 们 和 古人 否 更 期 户 
购买 茶 种 型 号 的 汽车 ， 因 此 我 开始 根据 汽车 型 号 对 车 辆 进行 分 类 。 





警告 : 当 创 建 可 视 化 时 ， 提 出 类 似 “ 人 们 是 否 更 热衷 于 回 购 茶 种 
型 号 的 汽车 ? ”这 样 的 问题 是 很 危险 的 。 数 据 会 告诉 我 们 很 多 东西 ， 
但 是 数据 很 少 会 给 我 们 提供 和 人 类 动机 一 样 复 杂 的 展 好 信息 。 描 绘 数 
据 本 身 是 一 回 事 ， 而 解释 数据 涵义 却 又 是 另 一 回 事 。 如 果 因 为 福特 汽 
车 比 其 他 型 号 的 汽车 有 更 高 的 回 购 量 ， 就 在 可 视 化 中 表明 人 们 更 光 望 
摆脱 福特 车 可 能 是 错误 的 。 这 种 表述 将 忽略 很 多 重要 的 变量 ， 包 括 如 
市 场 份 额 、 销 售 的 汽车 类 型 、 福 特 这 一 型 号 在 汽车 销售 中 的 地 位 、 汽 
车 的 使 用 年 份 等 。 限 制 可 视 化 的 一 个 好 的 经 验 法 则 是 : 只 从 数据 本 号 
碍 看 问题 ， 允 许 用 户 或 者 观察 者 目 己 下 结论 。 






































介绍 完 以 上 这 些 ， 对 可 视 化 内 在 的 问题 提出 质疑 将 是 发 现 规律 的 
有 效 驱 动 ， 因 此 不 要 居于 在 早期 提出 这 些 问题 一 一 而 是 要 避免 在 最 后 
的 可 视 化 中 回答 这 些 问 题 。 





我 开始 通过 汽车 型 号 对 它们 进行 排序 ， 对 回 购 的 汽车 交易 额 进行 
汇总 ， 我 觉得 比较 不 同型 号 (本 田 、 丰 田 、 通 用 、 福 特 和 克莱斯勒 ) 
的 回 购 量 和 新 车 购买 量 是 很 有 意思 的 。 随 着 开始 收集 这 些 数据 ， 我 们 
逐渐 发 现 汽 车 型 号 太 多 了 ， 以 致 难以 清晰 地 描绘 很 多 不 同 的 数据 点 。 
因此 ， 我 开始 通过 “ 母 公 司 ” 对 汽车 型 号 进行 分 组 ， 即 把 同一 汽车 公 
司 制造 的 不 同型 号 的 汽车 放 在 一 组 中 。 举 个 例子 ， 雷 死 蔷 斯 是 丰田 公 
司 生产 的 一 个 汽车 型 号 ， 因 此 我 把 雷克萨斯 型 号 和 回 购 的 丰田 型 号 的 
汽车 统一 以 丰田 公司 作为 分 组 ， 把 这 两 个 不 同型 号 的 汽车 组 合 在 一 
起 。 








最 后 ， 我 认为 最 有 利 的 信息 描述 方式 是 把 所 有 型 号 以 生产 国家 进 
行 分 组 ， 把 同一 国家 不 同型 号 的 汽车 组 合 在 一 起 。 这 种 方式 的 好 处 是 
可 以 把 汇总 的 数据 点 的 总 数 减少 到 十 几 个 ， 并 把 信息 以 不 是 非常 明显 
的 方式 组 合 在 一 起 。 通 过 这 种 方式 ， 我 们 能 够 以 窑 新 的 方式 来 查看 数 
据 。 








对 数据 排序 ， 技术 版 


既然 我 们 已 经 理 清 了 对 数据 排序 的 思路 ， 现 在 我 们 一 起 开始 文件 
的 处 理 过 程 。 


如 果 下 载 了 Excel 文 件 ， 在 打开 这 些 文件 后 ， 你 可 以 发 现 这 些 数 据 
首先 是 根据 汽车 行业 进行 分 类 的 (卡车 第 一 ， 轿 车 第 二 ) ， 然 后 对 汽 
车 型 号 按 字 母 序 排序 ( (Aura、Audi、BMW 等 ) 。 为 了 根据 汽车 的 生产 
国家 对 数据 进行 排序 ， 最 简单 的 方式 是 通过 汽车 型 号 对 数据 进行 分 
类 ， 然 后 ， 我 们 将 决定 哪 一 种 型 号 汽车 和 其 “ 母 公 司 ” 所 在 的 国家 一 
致 。 为 了 对 Excel 表 单 中 的 数据 进行 排序 ， 只 需要 在 newvehicles 文 件 
中 选择 New_Vehicle_Make 这 一 列 ， 或 者 在 trade-in-vehicles 文 件 中 选 
择 Trade in make 列 ， 然 后 选择 “Sort&Filter 一 Sort A to 2”。 如 
果 Excel 文 件 弹出 对 话 框 ， 问 是 否 要 扩大 选择 范围 ， 则 接受 该 选项 。 








你 可 以 通过 以 下 方式 把 特定 型 号 的 汽车 的 购买 和 回 购 的 数量 汇总 
起 来 : 输入 “=SUM《〈《”， 然 后 使 用 鼠标 选择 Count 列 中 特定 型 号 的 所 有 
的 单元 格 。 作 为 第 一 次 尝试 ， 把 所 有 的 Acura 这 一 型 写 的 汽车 的 购买 数 
量 加 起 来 ， 结 果 应 该 是 991 辆 汽车 。 把 所 有 型 号 的 汽车 购买 数量 进行 汇 
忆 ， 把 结果 值 放 到 为 一 个 页 面 中 ， 这 样 可 以 帮助 你 更 方便 地 查看 数 
据 。 





WU RUAIR TRU, AERAR RA BEI DL. WATE SE 
哪 一 区 汽车 销量 最 高 ， 或 者 哪 一 年 的 回 购 量 最 大 。 即 使 是 对 于 和 当前 
的 数据 集 一 样 小 的 数据 集 ， 也 可 以 提出 几 十 个 有 意思 的 问题 。 可 能 
机 一 动 ， 你 束 想 到 其 中 某 个 问题 ， 并 激 友 你 创造 新 的 、 有 了 吸引 力 的 可 
视 化 。 至 少 ， 这 是 去 实践 查看 数据 的 一 个 非常 好 的 机 过 。 




















对 这 种 数据 进行 排序 存在 很 多 种 方式 。 可 能 写 个 脚本 或 程序 来 处 
理 该 CSV 文 件 、 并 且 把 数据 放 到 更 易于 得 看 的 汇总 文件 中 是 更 高 效 的 
CM A TEAL 象 深 刻 ) 。 在 这 个 例子 中 使 用 Exce1 是 为 了 帮助 不 熟悉 
编程 的 人 们 参与 数据 处 理 和 可 视 化 创建 。 











制定 问题 





到 了 现在 这 个 阶段 之 后 ， 我 们 应 该 对 自己 要 做 什么 才能 为 可 视 化 
制定 充实 的 问题 有 了 坚实 的 认识 。 我 们 的 问题 是 : “ES 旧 车 换 现 
金 ” 项 目 中 ， 汽 车 的 购买 和 其 生产 广 家 所 在 的 国家 的 比例 分 布 是 什 


A? 29 





基于 该 问题 场景 ， 我 们 可 以 选择 构建 很 多 相关 的 信息 来 相应 地 搭 
建 可 视 化 ， 记 住 我 们 的 目标 受众 可 能 并 不 会 马上 对 该 主题 感 兴趣 。 以 
下 几 项 有 助 于 为 数据 增添 场景 信息 : 








。 该 项 目 花 费 了 2850162500 美 元 ， 提 供 677081 辆 汽车 的 采购 资 


uP 








”对 于 购买 的 每 辆 汽车 ， 有 一 辆 是 回 购并 报废 的 。 


。 该 项 目 始 于 2009 年 7 月 1 日 ， 终 于 2009 年 8 月 24 日 。 


” 回 购 的 汽车 每 加 仑 油耗 的 行驶 里 程 必 须 少 于 18 英 里 ( (MG) 。 


© 购买 的 汽车 每 加 仑 油耗 的 行驶 里 程 必 须 大 于 22 英 里 。 





为 了 可 视 化 ， 我 们 最 感 兴趣 的 是 汽车 购买 和 汽车 报废 之 间 的 关联 
关系 。 这 在 人 们 想 要 摆脱 的 各 种 汽车 以 及 他 们 想 要 购买 的 新 的 汽车 之 


间 产 生 了 一 个 有 趣 的 平衡 现象 《也 即 某 种 程度 的 戏剧 化 ) 。 当 我 们 把 
数据 和 可 视 化 放 在 一 起 ， 我 们 需要 记 住 这 种 平衡 特征 ， 并 相应 地 调整 
可 视 化 。 


把 问题 弄 清楚 之 后 ， 我 们 已 经 有 了 坚实 的 基础 ， 我 们 可 以 通过 分 
组 和 排序 来 进一步 对 数据 进行 处 理 了 。 


对 数据 分 组 








这 个 步骤 需要 做 一 些 调研 。 为 了 按 生 产 国家 对 不 同型 号 的 汽车 进 
行 分 组 ， 我 们 必须 查 明 哪个 汽车 型 号 对 应 哪个 公司 。 在 公司 信息 和 汽 
车 型 号 信息 这 两 个 文件 中 包含 50 多 种 汽车 型 号 ， 因 此 需要 花 一 些 时 间 
进行 调研 。 对 于 这 项 任务 ，Wikipedia 是 很 好 的 助手 ， 因 为 它 可 以 快速 
地 为 各 种 不 同型 号 的 汽车 提供 其 所 属 的 公司 〈 举 个 例子 ， 在 这 个 数据 
集中 ,克莱斯勒 汽车 公司 拥有 6 种 汽车 型 号 ) 以 及 这 些 型 号 的 汽车 的 总 
部 所 在 的 国家 。 





为 了 节省 您 的 时 间 ， 我 提供 了 一 个 包含 这 些 数据 信息 的 有 用 的 表 
( 见 表 2-1) 。 


表 2-1: 通过 型 号 、 所 属 公司 和 所 在 的 国家 进行 分 组 的 汽车 
型 号 所 属 公司 国家 型 号 


BM 
BM 


所 属 公司 国家 


= 
, 


MINI 


Benz motor 


E 


S: 





E EE S 


S 
S 
5S. 
S 
.S 


Honda Honda 


iss a M 


然而 ， 需 要 记 住 的 是 ， 这 种 通过 型 号 对 汽车 进行 分 组 的 方式 对 数 
据 提 出 了 一 些 问 题 ， 我 们 在 继续 下 一 步 探讨 之 前 需要 回答 这 些 问 题 。 
举 个 例子 ，Jaguar |!) 是 一 个 典型 的 总 部 设 在 英国 的 英国 公司， 但 它 
却 为 印度 公司 Tata 汽 车 公司 所 有 有。 那么， 我 们 应 该 把 Jaguar 划 分 为 英 
汽车 还 是 印度 汽车 呢 ? 


处 理 这 类 问题 的 “正确 ”的 方法 主要 是 由 个 人 喜好 决定 。 重 要 的 
是 在 可 视 化 展现 中 ， 对 此 类 问题 的 决定 应 该 保持 一 臻 性， 并 且 同 读者 
传达 这 样 的 信息 : 你 以 菜 种 方式 做 出 了 决定 。 通 常情 况 下 ， 在 可 视 化 
中 给 一 个 脚注 进行 说 明 就 足够 了 。 











[1] Jaguar 即 捷豹 ， 是 一 球 很 名 贵 的 汽车 。 





应 用 可 视 化 展现 方式 





在 这 个 阶段 ， 我 们 应 该 以 目 己 期 望 的 方式 获取 所 有 数据 : 回 购 或 
新 购买 的 汽车 ， 通 过 国家 进行 分 组 。 现 在 应 该 开始 选择 数据 的 可 视 化 
展现 方式 。 





在 该 可 视 化 中 ， 我 们 将 展现 两 个 维度 的 信息 。 第 一 个 维度 是 按照 
国家 进行 分 组 的 汽车 的 数量 ， 第 二 维 是 购买 和 回 购 的 汽车 之 间 的 区 
别 。 购 买 的 汽车 和 “以 日 换 新 ”的 汽车 之 间 是 “独一无二 ”的 ， 因 此 
在 信息 上 不 存在 任何 交合 ， 这 将 简化 展现 方式 。 为 了 区 分 购买 的 和 回 
购 的 汽车 ， 我 们 可 以 使 用 一 种 简单 的 方法 来 表示 : 用 红色 表示 “ 回 
购 ”、 绿 色 表 示 “ 购 买 ”。 





由 于 我 们 要 处 理 的 数据 包含 的 数据 点 很 少 ， 但 是 其 变化 却 很 多 ， 
通过 尺寸 来 表示 这 种 信息 是 最 有 意义 的 。 这 种 展现 方式 将 以 直观 、 有 
力 的 方式 引起 人 们 对 这 种 变化 范围 的 关注 。 最 简单 的 实现 方式 将 是 使 
用 不 同 大 小 的 圆圈 或 者 条 形 图 来 表示 回 购 和 购买 汽车 的 数量 。 























天 于 面积 和 圆圈 的 注意 点 


如 果 我 们 使 用 圆圈 来 表示 数据 ， 必 须 记 住 的 是 我 们 将 需要 改变 圆 
圈 面 积 ， 而 不 是 该 圆圈 的 半径 或 直径 。 如 有 果 我 们 选择 了 购买 的 美国 汽 





车 的 数量 (575073) ， 并 且 半 径 用 50 个 像素 来 表示 ， 我 们 将 使 用 以 下 
Excel 公 式 来 计算 其 他 每 个 圆圈 的 大 小 : 


SQRT (( (U Baseline Radius 2*Target Vehicles)/US Vehicles 


我 指出 这 一 点 是 因为 这 种 计算 方式 可 能 是 在 一 般 情况 下 ， 用 圆圈 
或 者 面积 对 信息 进行 可 视 化 时 最 常 犯 的 错误 之 一 ; 正确 的 关系 如 图 2- 
10 所 示 。 通 过 线性 增 大 半径 或 直径 的 长 度 来 增 大 圆圈 时 ， 圆 圈 面 积 的 
增加 或 减少 将 是 呈 指 数 级 变化 的 ， 如 图 2-11 所 示 。 


人 至此， 我 们 讲 清楚 了 以 上 几 个 问题 ， 但 是 实际 上 我 们 不 会 使 用 圆 
圈 。 不 要 着 急 ， 我 这 么 做 是 有 充足 理由 的 。 


美国 日 本 
回 购 的 汽车 回 购 的 汽车 





81,466 





975,073 


Al 2-10: 正确 的 方式 〈 增 大 面积 ) 


美国 日 本 
回 购 的 汽车 回 购 的 汽车 


$1,466 





575,073 


图 2-11: 错误 的 方式 〈 增 大 半径 ) 


通过 国家 地 图 展现 数据 





既然 我 们 的 信息 可 视 化 是 以 国家 为 中 心 ， 我 们 将 使 用 各 个 国家 的 
形状 地 图 来 展示 可 视 化 ， 并 相应 地 调整 这 些 地 图 。 这 种 展现 方式 可 以 
给 我 们 的 可 视 化 增加 一 些 有 价值 的 附加 人 信息。 首先， 使 用 国家 地 图 将 
使 该 可 视 化 项 目 为 读者 带 来 视觉 上 的 亲密 感 。 如 果 读 者 的 祖国 在 列表 
上 ， 他 就 可 以 马上 找到 他 的 祖国 ， 并 且 会 倾注 其 注意 力 。 同 样 地 ， 我 
们 可 以 拉 近 读者 和 其 祖国 或 者 他 们 所 熟悉 的 任何 其 他 国家 间 的 情感 。 
这 样 的 情感 拉 近 使 得 读者 更 有 可 能 记 住 或 者 推荐 该 可 视 化 产品 。 











其 次 ， 使 用 国家 形状 地 图 而 不 是 圆圈 使 得 该 可 视 化 可 以 通过 很 多 
不 同 的 尺寸 大 小 来 传递 信息 。 即 使 可 视 化 中 只 有 拇指 般 大 小 的 图 形 ， 
还 是 可 以 轻易 识别 出 国家 形状 ,使 得 用 户 可 以 知道 该 可 视 化 是 和 不 同 





Fel 2x ZAR AR © TM ZAGREB) BY A Fe] SOR TM ee — 2A 
而 已 s 


再 次 ， 如 果 我 们 只 使 用 圆 立 或 者 条 形 图 ， 我 们 将 需要 依赖 文本 来 
表达 可 视 化 中 的 国家 的 名 字 。 这 一 点 不 一 定 是 坏事 ， 但 是 会 增加 读者 
对 可 视 化 的 理解 所 需要 的 时 间 ， 因 为 读者 需要 阅读 文本 才能 理解 可 视 
化 。 这 种 方式 将 可 能 削弱 可 视 化 带 来 的 直接 影 啊 效 果 。 

















最 后 ， 读 者 习惯 在 世界 地 图 中 看 到 的 这 些 不 同 的 国家 ， 它 们 的 相 
对 大 小 比例 总 是 相同 。 如 果 在 可 视 化 中 不 考虑 读者 所 熟悉 的 这 些 形 
状 ， 而 展现 为 韩国 比 德国 大 或 者 美国 比 日 本 小 ， 该 可 视 化 将 会 和 读者 
的 预期 差别 很 大 。 它 会 被 读者 认为 “扭曲 ”了 真实 的 事实 。 


确定 了 应 该 使 用 国家 形状 而 不 是 圆圈 的 方式 来 展现 可 视 化 之 后 ， 
我 们 需要 在 列表 中 找到 国家 的 可 视 化 展现 。 最 可 靠 的 方式 是 搜索 以 
“. svg” 为 后 缀 的 文件 中 的 国家 名 字 。SVG 表 示 可 缩放 矢量 图 形 
( (Salable Vector Graphics)， 是 由 W3C 协 会 倡议 的 开放 标准 的 矢量 
图 形 |!) 。 它 是 一 种 流行 的 矢量 图 像 标 准 ， 尤 其 适用 于 免费 的 图 像 和 
地 图 ， 很 多 矢量 控制 应 用 程序 都 支持 它 。 











3s 


E 基 共享 资源 ( (htp: //commons. wikimedia. org) 包 含 很 多 免 
高 质量 的 矢量 地 图 。 这 些 地 图 易于 扩展 ， 而 且 非 常 适用 于 这 种 项 
目 。 有 些 难以 发 现 的 国家 也 可 以 从 维基 共享 资源 的 世界 矢量 地 图 中 抽 














取出 来 。 这 些 文件 可 以 通过 图 形 设计 软件 Adope Illustrator ARE 
图 形 编辑 软件 Inkscape (http: //www. inkscape. org) 进 行 编辑 生成 矢 
量 文件 译 “2 ， 或 者 作为 GIMP |° WEER. OF Illustrator, HA 
量 对 象 可 以 在 Photoshop 中 直接 拷贝 和 粘贴 。 


为 了 简化 ， 我 们 将 只 显示 回 购 或 购买 的 汽车 的 数量 超过 1000 辆 的 
国家 。 这 意味 独 我 们 的 可 视 化 需要 美国 、 日 本 、 加 拿 大 、 德 国 、 瑞 典 
和 英国 的 地 图 。 





一 旦 我 们 有 了 这 些 国家 的 图 像 ， 我 们 惑 为 可 视 化 的 最 后 一 步 〈“ 即 
调整 图 像 大 小 ) 做 好 了 准备 。 


[1] 可 访问 其 主页 获取 更 多 信息 ， 

http: //www. w3. org/Graphics/SVG/. 

[2] Adobe Illustrator 是 Adobe 公 司 推出 的 图 形 设计 软件 ， 可 以 通过 
公司 的 网 站 产品 介绍 

http: //www. adobe. com/cn/products/illustrator/ 了 解 更 多 ，; 
J 次 开源 的 矢量 图 形 编辑 软件 ， 使 用 W3C 标 准 的 SVG 文件 格 
Io 

|3] GIMP:GNU 图 像 处 理 程序 ( (GU Image Manipulation Program), 

= 可 以 访问 其 网 站 http: //www. gimp. 


构建 可 视 化 


在 将 图 像 加 载 到 图 像 处 理 程序 之 后 ， 我 们 需要 调整 它们 的 大 小 ， 
以 便 能 够 合理 地 表示 回 购 和 购买 的 汽车 的 比例 。 


处 理 该 问题 的 方法 是 采纳 最 大 的 数据 块 〈 在 这 种 情况 下 ， 即 美国 
制造 的 汽车 的 回 购 数量 : 575073 辆 ) ， 然 后 把 它 的 大 小 调整 到 适合 
一 个 信息 图 形 的 画布 大 小 。 这 种 销 形 状 Cachor shape) 是 非常 实用 
的 ， 可 以 确保 没有 一 种 图 形 元 系 会 因为 尺寸 太 大 而 影响 可 视 化 显示 上 
给 入 的 优雅 的 感觉 。 把 这 种 数据 作为 锚 ， 我 们 可 以 对 所 有 其 他 数据 元 
素 相应 地 调整 大 小 。 











一 旦 确定 了 锚 形 状 的 大 小 ， 我 们 需要 计算 其 中 包含 多 少 像素 。 
Photoshop 和 GIMP 软 件 处 理 图 像 时 存在 技巧 ， 使 我 们 可 以 很 容易 地 计算 
在 特定 层 选 定 的 像素 的 个 数 。 这 两 款 软件 都 有 一 个 羔 单 窗口 名 为 “ 直 
方 图 ”( (Hstogram) ， 它 显示 了 当前 选 定 的 像素 的 个 数 。 使 用 该 工 
有 具 ， 我 们 可 以 确定 锚 的 像素 个 数 ， 通 过 以 下 公式 ， 可 以 计算 其 他 形状 
需要 包含 多 少 像素 : 











Target Size=Target Number*Anchor Size/Anchor Number 


举 个 例子 ， 日 本 汽车 的 回 购 数量 是 81466 辆 。 如 采 我 们 调整 美国 地 
图 大 小 为 25000 个 像素 ， 那 么 计算 日 本 地 图 大 小 的 等 式 如 下 : 


Japan_Size=81466*25000/575073=3542 像 素 通常 使 用 Excel 来 计 
算 ， 因 为 这 样 可 以 很 容易 地 保存 、 检 查 和 复制 。 





利用 直方 图 的 技巧 ， 我 们 可 以 对 目标 国家 的 不 规则 图 形 重 新 调整 
大 小 ， 直 到 它们 包含 适合 相应 数据 点 可 视 化 的 像素 数量 。 


为 了 适应 于 展现 可 视 化 的 媒体 (对 本 书 而 言 是 一 个 页 面 )， 我 决 
定 通过 一 条 垂直 轴 对 这 些 国 家 进行 排列 。 这 种 方法 为 色彩 元 素 增添 了 
对 称 性 ， 增 强 了 数据 中 的 绿色 /红色 、 新 买 的 /以 日 换 新 的 二 分 区 别 。 





现在 ， 我 们 已 经 完成 了 可 视 化 需要 的 核心 工作 。 在 介绍 性 宣传 单 
上 提供 一 些 背 景 信息 ， 增 加 关于 Jaguar 和 Land Rovers 的 起 源 国家 的 标 
vol ， 得 到 如 图 2-12 所 示 的 结果 。 











该 可 视 化 满足 了 我 们 的 标准 。 在 它 的 最 上 方 给 出 了 故事 的 介绍 信 
恩 ， 以 鲜明 的 布局 展示 方式 吸引 了 读者 的 注意 力 ， 而 且 可 以 立即 被 理 
解 。 我 们 通过 颜色 编码 表示 “购买 的 /回收 的 ”汽车 之 间 的 二 分 区 别 ， 
通过 物理 上 的 对 称 性 增强 了 该 展现 效果 《如果 我 们 希望 那些 色盲 人 员 
也 能 够 理解 该 信息 图 ， 对 称 性 是 很 重要 的 ) 。 该 可 视 化 说 明了 我 们 期 
望 给 读者 一 个 真正 激动 人 心 的 故事 。 














[5] Jaguar 和 Land Rovers 这 两 款 汽车 都 是 属于 Tata 公 司 的 ， 该 公司 总 
部 在 英国 ， 但 是 属于 印度 的 公司 。 


结束 语 





该 教程 谈 到 的 只 是 创建 有 效 可 视 化 的 技巧 的 一 小 部 分 。 如 果 在 以 
下 领域 具备 更 深层 次 的 基础 ， 如 色彩 理论 、 印 刷 术 、 计 算数 据 挖 气 和 
编程 ， 以 及 关于 数据 主题 的 一 些 背 景 知识 ， 那 么 在 创建 吸引 人 心 的 可 
视 化 中 都 将 提供 很 有 价值 的 帮助 。 








虽然 不 同 领域 都 为 可 视 化 创建 过 程 提供 了 一 些 不 同 的 信息 ， 但 它 
们 都 属于 一 个 统一 的 整体 ， 因 为 每 个 可 视 化 都 是 某 个 故事 的 一 部 分 。 
即使 显示 一 个 公司 的 盘 利 数据 的 最 简单 的 条 形 图 也 是 从 一 个 更 大 范围 
《可 能 是 管理 风格 上 的 变化 ) 、 更 令 人 难 筷 、 更 有 价值 的 信息 中 获取 
到 的 。 正 是 这 些 不 同 的 场景 以 及 和 它们 相关 的 故事 ， 赋 予 了 可 视 化 长 
期 持久 的 影响 和 力量 。 








WINNERS & CLUNKERS 


Between July 1 and August 24, 2009, the federal goverment provided 677,081 
rebates to individuals who traded in an older, inefficient vehicle for a new fuel 
efficient one. 


This is a visual of the countries from which vehicles were “clunked” and the 
countires that built the cars for which they were traded. 
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* Land Rover and laguar are owned by Indian 
comapry Tata Motors, but maintain their 
headquarters in England 


图 2-12: 最 终生 成 的 可 视 化 〈 见 彩 图 11) 


第 3 音 Wordle Jonathan Feinberg 





图 3-1: 本 章 的 一 个 Wordle 图 例 ( 见 彩 图 12) 


到 目前 为 止 ， 即 使 是 从 未 听 过 “信息 可 视 化 ”的 人 对 于 绚丽 多 彩 
的 单词 拼 贴 “Wordle” ||) 也 都 很 熟悉 ，Wordle 被 认为 是 “文本 分 析 
处 理 的 ′ 入 门 仙 丹 ””( Cte gateway drug to&nbsp; textual 
analysis) “| 。 正 如 很 多 这 样 的 “ 仙 丹 ”一 样 ， 虽 然 Wordle 起 源 于 像 
del. icio. us 和 Flickr 这 样 的 站 点 对 这 种 功能 实用 的 标签 云 的 推广 ， 但 
它 的 诞生 却 仅 仅 是 出 于 好 玩 。 


Wordle 的 起 源 


在 2004 年 ， 我 的 同事 Bernard Kerr 和 我 一 起 制作 了 一 个 社会 标签 
应 用 ，Bernard 把 它 命名 为 “dogear” |! ( (Mllen、Feinberg 和 和 
Kerr, 2006) 。 任 何 一 个 应 用 ， 只 要 允许 用 户 对 内 容 添 加 标签 ， 就 必 
定 会 提供 一 个 “标签 云 ”( (tg cloud) ， 它 是 由 可 点 击 的 关键 字 组 成 
的 一 个 模糊 的 矩形 集合 。 因 此 ， 当 我 们 设计 dogear 应 用 时 ， 我 们 确定 
对 每 个 页 面 都 添加 了 醒目 的 “标签 云 ” 标 识 〈 见 图 3-2) 。 








All of Jonathan's Tags 


MORE — me SS 
ajax blog css design 
dogear dom eclipse firefox 
fun funny hacks http ibm it 
java javascript lang media 
os programming search 
software visualization web 
wiki windows xpilist 


图 3-2: 在 dogear 应 用 中 显示 的 作者 的 标签 
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我 之 前 从 未 发 现 过 标签 云 在 可 视 化 上 有 什么 特别 有 趣 或 者 让 人 党 
心 局 目 之 处 。 没 有 足够 的 证 据 表 明 标 签 云 对 于 导航 或 者 其 他 交互 任务 
会 确实 很 有 用 MH 。 但 是 ， 当 Matt Jones ©! 在 他 的 博客 上 把 
del. icio. us 网 站 的 标签 以 美丽 、 排 版 上 生动 活泼 的 图 像 发 布 出 来 时 ， 
我 感到 非常 激动 。 我 认为 一 个 计算 机 程序 一 定 会 创造 出 类 似 的 效果 。 
至 少 ， 我 希望 最 后 可 以 是 通过 某 种 方式 一 一 类 似 Jones 的 云 标签 一 一 把 
点 “i” 放 到 点 “g” 的 下 方 ， 这 一 点 超出 了 标签 云 当时 力所能及 的 范 
Fi 
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图 3-3: Matt Jones 做 的 排版 上 可 


识别 的 标签 云 
我 花 了 一 周 左右 的 时 间 编 写 代码 ， 实 现 了 所 谓 的 “标签 浏览 器 
( 见 图 3-4) , 


是 一 个 Java 应 用 小 程序 。 这 个 小 程序 使 得 用 户 可 以 通 
过 dogear 应 用 ， 点 击 和 当前 内 容 相 关 的 标签 来 浏览 
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图 3-4: Dogear 标 签 浏览 器 L6] 











显而易见 ， 标 签 浏览 器 用 于 描绘 一 个 人 的 兴趣 爱好 是 很 有 用 的 。 
我 在 IBM 的 很 多 同事 使 用 标签 浏览 器 的 屏幕 截图 来 显示 他 们 的 简历 和 电 
子 邮件 签名 ( 见 图 3-5)。 





hacks 
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java Cambridge, MA 


图 3-5: 作者 2006 年 的 工作 电子 邮件 签名 


当 dogear 成 为 IBM 的 产品 O ， 标 签 浏览 器 和 dogear 应 用 脱离 开 
来 ， 我 就 完全 瑟 记 了 它 。 几 年 以 后 ， 我 偶然 看 到 了 标签 浏览 器 的 代 








码 ， 发 现 它 还 是 值得 进一步 开发 的 。 





原始 的 标签 浏览 器 和 dogear 应 用 结合 很 紧密 ， 而 且 总 体 上 遵从 

“标签 云 ” 的 思想 。 我 希望 能 够 找到 一 种 方式 ， 把 “单词 云 ” 特 效 从 
“标签 ”的 整体 思想 中 分 离 出 来 ， 因 为 单词 去 具有 的 令 人 愉快 且 有 趣 
的 特性 是 大 众 化 的 ， 而 只 有 了 解 复杂 技术 的 人 们 才 对 标签 熟悉 。 因 

此 ， 我 产生 了 对 单词 进行 计数 的 简单 想法 。 一 且 决 定 了 构建 一 个 系统 
来 查看 文本 而 不 是 标签 ， 对 单词 执行 其 他 任何 处 理 而 不 仅仅 只 是 在 页 
面 上 展现 看 起 来 都 是 多 余 的 。 我 决定 还 是 以 快乐 作为 设计 的 目标 ， 秉 
承 Charles Eames 的 讲话 精神 : “ 谁 会 认为 快乐 是 不 重要 的 ? ” 反 过 
来 ， 这 个 决定 使 得 最 后 确定 应 该 保留 哪些 特征 、 舍 莽 哪 些 特征 以 及 如 
何 设计 交互 界面 变 得 简单 容易 〈 见 图 3-6) 。 











粘贴 一 串 文本 : 


图 3-6: Wordle 的 文本 分 析 用 户 界面 


因为 Wordle《〈 正 如 该 词 听 起 来 的 那样 ) 的 目的 是 为 了 使 人 愉快 ， 
我 需要 考虑 字体 和 调 色 板 的 表现 力 〈 见 图 3-7) 。 
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图 3-7: Wordle 提 供 了 各 种 不 同 的 调 色 板 、 字 体 和 布局 ( 见 彩 图 13) 


rs Computer 





我 相信 自己 为 了 简化 Wordle 以 及 强调 商业 乐趣 上 所 付 诸 的 努力 ， 
已 经 达到 了 事半功倍 的 效果 。 人 们 对 Wordle 的 使 用 方式 是 我 从 未 预料 
到 的 ， 其 使 用 人 数 也 远 远 超出 了 我 的 期 望 。Wordle 的 成 功 一 部 分 归功 
于 Web 应 用 设计 本 身 ， 由 于 和 它 的 “一 次 粘贴 /一 次 点 击 ” 给 人 们 带 来 的 
瞬间 的 满足 感 。 虽 然 Wordle 可 视 化 设计 本 身 为 其 普遍 性 带 来 积极 影 
响 ， 可 是 在 我 们 详细 探讨 什么 是 Wordle 以 及 它 是 如 何 工 作 之 前 ， 有 必 
要 分 析 一 下 什么 不 是 Wordle。 





典型 的 标签 云 应 用 是 以 “先入 型 ”的 环绕 方式 组 织 的 “8 。 如 果 
某 行 的 字体 大 小 比 其 他 行 大 ， 字 体 小 的 周围 的 空白 处 将 更 大 ， 这 看 起 
来 会 很 不 协调 。 例 如 图 3-8，“everett hey” 的 上 方 有 很 大 的 空白 ， 


因为 该 行 的 字体 大 小 是 由 其 相 邻 词 “everett everett” REM. 


Imar damn GeimMar GeiMar delmar everett del y delmar huh ĜE 


pping droppinc dynamite nelson i j e ghty foul yéars Evei ETT a 
V e re t eV e re t L everett hey everett bal Se everett hm | 
weratt snaps oy tt wears faded stripes fa y farn fe 


leorge NEISON gettin married » 


图 3-8: “RR” ZEA PO ( 见 彩 图 14) 








减轻 这 种 由 于 强烈 的 对 比 造 成 空白 参差 不 齐 的 一 种 方式 是 把 不 同 
字体 大 小 的 单词 放 入 几 个 不 同 的 区 块 中 ， 如 del. icio. us 所 做 的 那样 。 
在 图 3-9 中 ，“programming” 这 个 标签 被 用 了 55 次 ， 而 “scripting” 
只 被 用 了 1 次 ， 但 是 使 用 更 频繁 的 字体 大 小 仅 大 出 50%。 还 应 该 注意 使 
用 字体 权重 《粗细 ) 来 增强 不 同 权重 的 字体 之 间 的 对 比 度 。 








music 
processing programming 


t y p 
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图 3-9: 借助 字体 权重 来 增加 区 分 度 





实际 上 ，del. icio. us 站 点 主要 是 通过 计算 对 数 的 方式 来 缩放 单词 
的 权重 。 当 源 数据 遵从 大 率 分 布 时 ， 使 用 对 数 或 者 平方 根 的 方式 对 字 
体 权 重 进行 缩放 是 合理 的 ， 如 标签 那样 “0 。 在 Wordle 的 真实 、 有 用 
的 设计 和 充满 幻想 的 世界 中 ， 存 在 一 些 其 他 更 具有 实验 研究 性 的 接 





O o 。 比 如 WP-Cumulus |!!! 的 博客 插件 ， 提 供 了 旋转 的 、 三 维 的 标签 画 
面 〈 见 图 3-10) 。 
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图 3-10: WP-Cumulus: 几乎 无 法 点 击 的 “标签 云 ” 






把 可 视 化 和 导航 结合 起 来 在 设计 “单词 云 ” 上 提出 了 一 些 约束 。 
但 是 一 旦 我 们 能 够 从 “实用 性 ”中 解放 出 来 一 一 一 旦 我 们 不 再 需要 提 
供 导 航 功能 一 一 我 们 就 可 以 拥有 更 大 的 发 挥 空间 。 





填充 二 维 空间 


有 很 多 计算 机 科学 博士 因为 逐步 改进 所 谓 的 “ 装 箱 问题 (4 Cbon- 
packing problems)” ||?) 而 被 授予 博士 学 位 。 幸 运 的 是 ， 一 种 简单 
的 方法 有 一 个 很 不 错 的 名 字 : 随机 贪 梦 算法。 该 算法 是 随机 的 
( (rndomized) ， 你 可 以 随意 把 单词 拖 放 到 屏幕 中 某 个 期 望 的 位 置 附 
近 ， 而 如 果 该 词 和 其 他 词 存 在 区 于， 就 重新 再 试 一 次 ， 直 到 它 不 和 任 


{AT a ACB IE © IAEA “AWE (geedy) ”之 处 在 于 字体 
大 的 单词 更 容易 被 选中 。 


Wordle 的 特定 字符 依赖 于 一 些 限制 条 件 。 首 先 ， 给 定 一 组 包含 关 
联 (有 意义 的 ) 权重 的 单词 列表 。 我 们 不 能 多 次 显示 一 个 单词 ， 而 且 
不 希望 显示 超出 了 单词 的 字体 大 小 而 扭曲 了 单词 的 形状 。 不 过 ， 如 果 
我 们 取消 这 些 约束 条 件 ， 可 能 会 产生 很 多 其 他 美丽 有 趣 的 效果 。 


例如 ， 你 可 以 使 用 贪 柳 算 法 来 填充 几乎 任何 一 个 区 域 〈 不 只 是 一 
个 矩形 ) ， 只 要 你 有 一 组 单词 作为 “ 调 色 板 ”， 从 该 调 色 板 中 你 可 以 
任意 次 数 地 选择 任意 字体 的 任意 单词 〈 见 图 3-11) 。 





见 彩 图 15) 
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图 3-11 不 要 低估 随机 贪 梦 算法 


( (Eotion Fractal)” 


ROT 


f=) 
an 


E 
A 


AAA “Tt 
归 地 把 空间 细 分 成 更 小 


考虑 Jared Tarbell fy 


2, HF 


BLAH 
、 随 机 选择 的 、 任 意 


的 





HJ 


a 


( 见 图 3-12 ) ’ 


更 小 的 单词 来 填充 
权 值 的 候选 单词 。 
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图 3-12: Jared Tarbell 的 “情感 分 形 ” 


如 果 你 不 介意 按照 需要 拉 长 或 者 压缩 字体 ， 还 可 以 产生 其 他 的 效 
果 。 例 如 ， 图 3-13 显 示 了 典雅 的 “ 树 形 图 ”( Cteemap) “的 变 体 ， 
它 使 用 文本 ， 而 不 是 矩形 来 填充 空间 。 每 个 单词 填充 的 区 域 与 其 出 现 
的 频率 成 一 定 比 例 ， 每 个 矩形 区 域 包含 了 在 原文 文本 中 相互 强 关 联 的 
单词 。 
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图 3-13: 奥巴马 演讲 的 单词 树 形 图 〈 见 彩 图 16 ) 


必须 指出 的 是 ， 早 在 Processing 图 形 处 理 软件 ( (Pocessing 
sketches) 1°! 和 Flash 应 用 小 程序 产生 之 前 ， 人 们 就 开始 探索 在 大 众 
媒体 和 艺术 作品 上 的 排版 创作 《〈 见 图 3-14) ;我 们 长 时 间 一 直 在 探索 
文字 的 格式 和 字体 之 间 的 分 界 〈 见 图 3-15) 。 探 索 这 些 算法 的 目标 是 
使 这 些 例子 中 所 缠 涵 的 智慧 和 优雅 能 够 给 文本 数据 的 展现 市 来 展 好 的 
ER 





鉴于 以 上 关于 Wordle 所 涉及 的 技术 和 艺术 背景 的 简短 介绍 ， 我 们 
现在 可 以 更 详尽 深入 地 查看 Wordle 中 蕴涵 的 技术 和 美学 。 
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图 3-14: Herb Lubalin 和 Lou Dorfsman 的 印刷 排版 组 合 (由 设计 研 


究 中 心 提供 ， 见 彩 图 17) 

[1] Wordle 是 一 种 工具 ， 能 够 根据 提供 的 文本 ， 生 成 单词 拼 贴 图 形 
( 即 单 词 云 ，word cloud). 

[2] 参考 http: //www. profhacker. com/2009/10/21/wordles-or-the- 
gateway-drug-to-textual-analysis/. 

[3] dogear 是 “书页 折 角 ”的 意思 。 它 是 IBM 的 一 个 协作 式 用 户 体 验 项 
目 ， 可 以 访问 
http: //domino. watson. ibm. com/cambridge/research. nsf/0/1cl8le 
e5fbcf59fb852570fc0052ad75 了 解 更 多 。 

[4] 参考 http: //doi. acm. org/10. 1145/1240624. 1240775. 

15] 参考 http: //magicalnihilism. com/2004/07/04/my-delicious- 
tags—july-2004/. 


[6] : BS 

http: //www. flickr. com/photos/koranteng/526642309/in/set- 
72157600300569893. 

[7] : 参考 http: //www- 

01. ibm. com/software/lotus/products/connections/bookmarks. html 


[8] 如 果 你 想 深 入 研究 标签 云 设计 ， 请 查看 该 网 址 

http: //www. smashingmagazine. com/2007/11/07/tag-clouds- 
gallery-examples-and-good-practices/， 它 包含 非常 有 见地 的 评 
Wo 

[9] 参见 

http: //manyeyes. alphaworks. ibm. com/manyeyes/page/Tag Cloud. h 
tml. 

[10] 参考 

http: //www. citeulike. org/user/andreacapocci/article/1326856 





|11] 参考 http: //wordpress. org/extend/plugins/wp-cumulus/. 
[12」 参考 http: //en. wikipedia. org/wiki/Bin packing problem. 
[13] : 参考 

http: //levitated. net/daily/levEmotionFractal. html. 

|14] : 参考 http: //www. cs. umd. edu/hcil/treemap-history/. 
[15] Processing 是 一 球 优秀 的 开源 编程 语言 ， 人 们 可 以 用 它 创 建 二 
维 、 三 维 的 图 形 、 动 画 和 一 些 交 互 应 用 等 。 你 可 以 访问 其 主页 
http: //processing. ofg/ 来 了 解 更 多 。 


Wordle 如 何 工作 


Wordle 是 通过 Java 应 用 小 程序 实现 的 ， 因 此 这 里 提供 的 一 些 技术 
细节 是 以 Java 特 有 的 一 些 语言 特性 描述 的 。 这 里 所 描述 的 都 可 以 通过 
其 他 语言 、 使 用 其 他 库 或 者 框架 来 实现 ， 不 过 Java 对 Unicode 文 本 处 理 
和 二 维 图 形 〈 通 过 Java2D API) 的 支持 ， 使 得 用 Java 实 现 Wordle 变 得 简 
单 容易 。 








文本 分 析 


我 们 先 回顾 一 下 决定 Wordle 字 符 的 一 些 基本 前 提 。 特 别 地 ， 只 要 
考虑 到 Wordle， 我 们 需要 首先 确定 “文本 ”到 底 是 什么 。 








虽然 这 种 文本 分 析 方 式 与 一 些 自然 语言 处 理 方式 相 比 还 很 粗粮 ， 
但 是 其 实现 起 来 却 也 相当 繁琐 。 如 果 你 准备 用 Java 语 言 实现 这 种 分 析 
方式 ， 我 所 开发 的 库 cue. language |!) 会 很 有 帮助 。 它 很 小 很 快 ， 并 
且 作为 Wordle 的 一 部 分 ， 每 天 有 数 千 人 在 使 用 它 。 请 记 住 ， 在 上 自然 语 
言 分 析 中 美学 和 科学 并 重 【| ， 即 使 是 当前 最 先进 的 计算 工具 ， 其 中 
也 需要 用 到 判断 和 审美 。 








查找 单词 


Wordle 使 用 单词 进行 绘图 ， 每 个 单词 有 一 定 权 值 ， 单 词 的 大 小 由 
这 些 权 值 决 定 。Wordle 如 何 判定 一 个 “单词 ”? Wordle 构 建 了 一 个 正 
则 表达 式 ， 它 能 够 识别 很 多 不 同 字体 类 型 的 单词 ， 然 后 通过 递归 方 
式 ， 把 该 正则 表达 式 应 用 于 给 定 的 文本 ， 生 成 一 组 结果 单词 列表 ， 如 
例 3-1 所 示 。 








例 3-1: 如 何 识别 “单词 ” 


private static final String LETTER=” 
[@+\\p{javaLetter}\\p{javaDigit}]’; 

private static final String JOINER=" 
[-.: /’’ \\p {M} \\u2032\\u00A0\\u200C\\u200D~ J”; 

/* 

A word is: 

one or more’ letters’ followed by 

zero or more sections of 


one or more’ joiners’ followed by one or more” letters” 

/* 

private static final Pattern WORD= 

Pattern. compile (LETTER+” + (”+JOINER+”’+”+LETTER+”+) *”) ; 


在 Wordle 中 ， 字 符 是 Java 的 Character 类 所 能 够 识别 的 以 下 任何 一 
个 字符 ， 具 体 包括 : “字母 ”、“ 数 字 ”、“@” 号 和 “+” 号 。 连 接 
符 包 括 以 下 几 方 面 : Unicode 的 M 类 ， 它 描述 了 很 多 非 空格 标识 和 组 合 
标识 ; URL 中 经 常 出 现 的 其 他 标点 符号 (因为 Wordle 的 用 户 期 望 把 URL 
也 作为 字符 串 〉; 省 略 号 以 及 一 些 其 他 非 正 式 地 表示 省 略 号 的 字符 
(如 单 引号 字符 C) , U+2032) 。Wordle 支 持 把 波浪 符 (~) 作为 单 
词 连接 符 ， 但 是 在 输出 时 把 波浪 符 蔡 换 成 一 个 空格 ， 因 此 用 户 可 以 非 
常 容易 地 “把 这 些 单词 连接 在 一 起 ”， 而 不 需要 知道 真正 地 把 各 个 字 
符 连 接 在 一 起 的 “魔术 连接 符 ”。 


确定 字体 类 型 


抽取 了 一 组 单词 之 后 (不 论 这 里 “单词 ”的 涵义 是 什么 ) ， 我 们 
需要 知道 如 何 把 这 些 单词 展现 给 观众 。 我 们 首先 要 知道 需要 展示 的 字 
符 有 哪些 ， 从 而 可 以 选 定 一 种 字体 ， 能 够 支持 这 些 字符 。 





Wordle 的 字体 集 是 按照 每 种 字体 可 以 文 持 的 字体 类 型 (〈sript) 的 
方式 来 组 织 的 ， 一 种 字体 类 型 〈 语 系 ) 即 你 所 能 想到 的 一 个 字母 : 一 
MES CPA) 集合 ， 可 以 以 一 种 或 多 种 语言 来 可 视 化 表示 字符 序 
列 。 一 个 给 定 的 字体 类 型 ， 在 Unicode 中 是 组 织 成 一 个 或 多 个 分 块 。 因 











此 ，Wordle 的 任务 是 通过 给 定 文本 中 所 表现 的 分 块 ， 确 定 用 户 可 能 想 
要 使 用 哪 一 种 字体 。 


Java 提 供 了 静态 方法 UnicodeBlock. of (int codePoint) 来 确定 给 
定 的 代码 点 属于 哪个 分 块 。Wordle 获 取 文 本 中 最 常见 的 单词 ， 并 检查 
每 个 单词 中 的 首 字 符 。 在 常见 情况 下 ， 首 字符 是 属于 Latin 分 块 ， 我 们 
进一步 查看 该 单词 的 其 他 字符 ， 看 是 否 包含 任 何 Latin-1 编 码 符 我 们 
认为 这 种 方式 可 以 排除 某 些 字体 类 型 ) 或 者 任何 Latin 扩 展 分 块 〈 这 种 
方式 可 以 排除 更 多 的 字体 类 型 ) 。 最 后 ，Wordle 会 选中 最 常见 的 分 块 
作为 最 终 分 块 。 











为 了 保证 啊 应 速度 和 限制 网 络 资源 的 使 用 ，Wordle 在 设计 上 一 次 
只 人 允许 使 用 一 种 字体 。 特 征 功能 更 全 的 单词 云 可 能 会 为 不 同 的 单词 先 
择 不 同 的 字体 ， 这 种 方式 可 以 为 展现 提供 男 一 种 视觉 维度 ， 如 不 同 的 
源 文本 。 


在 撰写 本 章 时 ，Wordle 已 经 支持 拉丁 语 ( tin, MERX 
( (Crillic), #§3¢( CDvanagari) 、 希 伯 来 文 ( (Hbrew) 、 阿 拉 伯 文 
( (Aabic) 和 希腊 文 ( (Geek) 。Wordle 本 身 有 意 不 支持 CJKV 字 体 类 型 ， 
包括 中 文 、 日 文 、 韩 文 和 越南 文 。 因 为 CJKV 字 体 数据 非常 大 ， 需 要 花 
费用 户 很 长 时 间 下 载 (因而 其 带宽 成 本 很 高 )。 此 外 ， 确 定 表 意 符号 
的 字体 边界 需要 非常 复杂 的 机 器 学 习 算法 和 大 量 的 运行 时 数据 结构 ， 


Wordle 无 法 提供 这 些 。 











Unicode 内 核 


由 于 Wordle 只 能 处 理 Unicode 文 本 ， 为 了 理解 后 面 的 一 些 术语 和 符 
号 ， 你 首先 需要 了 解 以 下 内 容 。 


Unicode “标准 提供 了 一 套 通用 的 编码 字符 集 和 一 些 在 计算 机 中 


表示 这 些 字符 的 规范 〈 即 字 节 序 》 





字符 是 一 个 抽象 的 概念 ， 是 表示 书面 语言 的 原子 单位 。 它 和 “ 字 
母 ” 不 是 一 个 概念 一 一 比如 一 些 Unicode 字 符 〈 重 音符 号 、 元 音 变 音符 
号 、 零 宽 连 接 符 ) 只 有 和 其 他 字符 组 合 时 才 是 有 意义 的 。 每 个 字符 都 
有 一 个 名 字 〈 如 希腊 大 写字 母 ALPHA) 以 及 很 多 属性 ， 比 如 : 是 否 是 数 
字 、 是 否 是 大 写字 母 、 表 示 方 式 是 否 是 从 右 到 左 、 是 否 是 变 音符 等 























一 个 字符 集 或 者 字符 指令 系统 则 是 另 一 种 抽象 : 它 是 字符 的 无 序 
集合 。 一 个 给 定 的 字符 或 者 属于 、 或 者 不 属于 一 个 给 定 的 字符 集 。 
Unicode 的 目标 是 提供 一 种 通用 的 字符 集合 一 一 包含 当前 正在 使 用 中 的 
以 及 历史 上 曾经 使 用 过 的 每 一 种 书面 语言 的 每 一 个 字符 一 一 其 标准 也 
在 不 断 地 修改 以 使 得 它 能 够 更 接近 该 目标 。 











一 个 编码 的 字符 集会 为 每 个 字符 唯一 指定 一 个 整数 作为 这 个 字符 
的 码 点 。 一 旦 为 字符 分 配 了 特定 的 码 点 ， 就 可 以 通过 数字 来 代表 这 些 


字符 了 。 通 常情 况 下 ， 码 点 的 描述 是 由 一 个 大 写 的 U、 一 个 加 号 字符 


“+” 以 及 一 个 十 六 进 制 数字 组 成 。 例 如 ， 本 章 之 前 提 到 的 单 引 号 字符 
的 码 点 是 U+2032。 





编码 的 字符 是 按照 它们 所 属 的 语系 来 组 织 的 ， 而 语系 内 部 会 进 一 
步 将 各 种 强 相 关 的 字符 组 合 在 一 起 进而 划分 为 多 个 分 块 。 举 个 例子 ， 
拉丁 文 语 系 〈 很 多 欧洲 语言 都 是 属于 该 系 ) 被 划分 成 基础 拉丁 文 〈 包 
含 足够 表示 拉丁 文 和 英文 的 字符 ) 、Latin-1 补 码 〈 包 括 一 些 特殊 符号 
和 一 些 控制 符号 的 结合 ) 、 拉 本 扩展 A、 拉 了 丁 扩展 B 等 。 


当 需 要 真正 地 把 文字 显示 在 屏幕 上 时 ， 计 算 机 程序 解释 字符 序列 
并 使 用 一 种 字体 来 生成 符合 上 下 文 所 需要 的 顺序 和 位 置 的 字形 。 


青 测 语言 并 删除 集 用 词 


文本 中 包含 很 多 “the”、“it” 和 “to” 既 不 有 趣 也 不 会 令 人 惊 
奇 。 为 了 避免 Wordle 变 得 让 人 感觉 无 车 ， 需 要 删除 在 每 一 种 可 识别 的 
语言 中 包含 的 这 些 停 用 词 。 对 于 给 定 的 文本 ， 想 要 知道 应 该 删除 哪些 
停 用 词 ， 我 们 首先 需要 猜测 该 文本 是 什么 语言 。 





识别 字体 类 型 和 识别 语言 不 同 ， 因 为 很 多 语言 可 能 使 用 相同 的 字 
体 《〈 例 如 法 语 和 意大利 语 ， 都 是 使 用 拉丁 语 字体 ) 。 


Wordle 采 用 了 一 种 直截了当 的 方式 来 猜测 文本 所 属 的 语言 : 它 从 
文本 中 选择 50 个 最 常见 的 单词 ， 计 算 这 些 单 词 在 每 种 语言 的 信用 词 列 


表 中 出 现 的 次 数 。 哪 个 停 用 词 列 表 的 计数 值 最 高 ， 就 认为 该 文本 的 语 
言 即 为 该 停 用 词 列 表 所 属 的 语言 。 


如 何 创建 一 个 停 用 词 列 表 ? 如 同 之 前 所 述 的 关于 一 个 “单词 ”的 
定义 ， 这 种 问题 属于 主观 上 的 判断 问题 ， 而 不 是 科学 。 通 第 情况 下 ， 
首先 对 一 个 大 语料库 的 所 有 单词 进行 计数 ， 选 择 出 现 频率 最 高 的 单 
词 。 然 而 ， 你 可 能 会 发 现 茶 些 高 频 词 对 输出 结果 起 到 良好 的 效果 ， 而 
其 他 低频 词 看 起 来 只 是 给 结果 增加 噪音 干扰 ， 因 此 可 能 需要 稍微 调整 
一 下 停 用 词 列 表 。 














Wordle 的 很 多 停 用 词 列表 来 自 于 用 户 的 收集 ， 他 们 希望 Wordle 能 
够 更 好 地 支持 他 们 的 语言 。Wordle 的 Web 站 点 对 这 些 用 户 表达 了 谢意 。 


默认 情况 下 ，Wordle 在 下 一 步 处 理 之 前 ， 会 从 单词 列表 中 删除 包 
含 的 选 定 语言 的 停 用 词 ， 但 Wordle 用 户 也 可 以 通过 设置 菜单 复 选 框 ， 
来 修改 默认 值 的 设置 。 


给 单词 分 配 权 重 


Wordle 采 用 直截了当 的 方式 为 每 个 单词 赋 数 值 权 重 。 其 采用 的 公 
式 是 权重 = 单词 计数 。 


布局 


一 旦 你 对 文本 进行 了 分 析 ， 结 果 就 是 一 个 单词 列表 ， 每 个 单词 都 
有 一 个 基于 其 在 文本 中 的 频率 计算 得 到 的 数值 权重 。Wordle 会 对 这 些 
权 值 以 任意 尺度 进行 范 化 ， 这 样 就 决定 了 影响 结果 图 片 的 不 同 常数 的 
尺度 (如 本 章 后 面 所 述 的 层次 边界 框 的 最 小 尺寸 )。 你 现在 可 以 把 文 
字 转 变 成 图 形 对 象 并 把 这 些 对 象 放 到 空间 的 某 个 位 置 。 








把 加 权 单 词 转换 成 图 形 


对 于 每 个 单词 ，Wordle 构 建 了 一 种 字体 ， 其 点 大 小 和 该 单词 缩放 
的 权 值 相等 ， 然 后 使 用 字体 来 生成 Java2D 图 形 〈 见 例 3-2) 。 


例 3-2: 如 何 把 字符 串 转 换 成 图 形 


private static final FontRenderContext FRC 

=new FontRenderContext (null, true, true); 

public Shape generate(final Font font, final double weight, final 
String word, 

final double orientation) { 

final Font sizedFont=font. deriveFont (( (foat) weight) ; 

final char[]chars=word. toCharArray ©) ; 

final int direction=Bidi. requiresBidi (chars, 0, chars. length)? 

Font. LAYOUT RIGHT TO LEFT:Font. LAYOUT LEFT TO RIGHT; 

final GlyphVector gv= 

sizedFont. layoutGlyphVector (FRC, chars, 0, 
chars. length, direction) ; 

Shape result=gv. getOutline () ; 

if (orientation! =0.0) { 

result=AffineTransform. getRotateInstance (orientation) 

. createTransformedShape (result) ; 

} 

return result; 


} 


展现 区 域 





Wordle 通 过 以 下 几 种 方式 来 估算 最 终 的 单词 云 所 能 履 盖 的 所 有 区 
Jak: 检查 每 个 单词 的 边界 框 ， 对 区 域 面积 求 和 ， 调 整 字体 小 的 单词 和 
边界 大 的 单词 的 面积 使 得 它们 显示 上 更 紧凑 。 结 果 区 域 和 目标 区 域 成 
一 定 比 例 〈 目 标 区 域 是 根据 Wordle 的 应 用 小 程序 在 运算 时 的 布局 的 长 
宽 等 维度 的 数值 计算 得 到 的 〉。 











用 于 调整 “展现 区 域 ”的 常量 和 Wordle 的 布局 所 在 的 区 域 ， 是 通 
过 “ 久 经 考验 ”的 传统 方式 实现 ， 即 应 用 不 同 的 数值 进行 尝试 ， 直 到 
整体 看 起 来 “不 错 ” 且 运行 “良好 ”。 正 如 实际 情况 所 示 ， 展 现 区 域 
的 精确 的 面积 大 小 是 至 关 重 要 的 ， 因 为 区 域 边界 在 布局 中 是 作为 约束 
条 件 。 如 有 果 你 的 展现 区 域 面积 太 小 ， 在 该 区 域 放 置 单词 就 会 很 慢 ， 缀 
大 多 数 单词 会 “出 局 ”， 留 下 一 个 圆圈 《因为 一 旦 一 个 单词 不 能 被 放 
置 在 展现 区 域 中 ，Wordle 系 统 将 放宽 约束 条 件 ， 结 果 是 所 有 单词 都 会 
被 随机 分 布 在 一 些 初始 位 置 ) 。 如 果 展 现 区 域 面积 太 大 ， 结 果 将 是 灯 
乱 的 一 团 〈 因 为 任何 不 存在 交合 的 位 置 都 是 可 以 接受 的 ) 。 

















需要 特别 注意 的 一 点 是 ， 对 于 异常 长 的 单词 ， 它 的 时 个 维度 的 取 
值 可 能 比 计算 其 所 基 于 的 区 域 的 宽度 和 高 度 的 值 都 要 大 。 你 必须 保证 
你 的 展现 区 域 面 积 足 够 大 ， 至 少 可 以 包含 最 长 的 单词 。 

















请 记 住 ， 展 现 区 域 只 是 一 个 抽象 的 空间 ， 一 个 和 像素 、 尺 寸 或 者 
任何 衡量 尺度 不 相关 的 坐标 系统 。 在 这 个 抽象 空间 中 ， 你 可 以 对 单词 
形状 进行 布局 ， 并 执行 交 营 检查 。 当 需要 真正 地 将 像素 放 到 屏幕 上 
时 ， 你 还 可 以 对 屏幕 单元 进行 缩放 。 














放置 


为 放置 单词 创建 完 展现 区 域 后 ， 需 要 把 单词 放置 到 该 区 域 中 。 全 
局 的 放置 策略 是 采用 随机 贪 禁 算 法 ， 其 中 单词 是 一 次 一 个 地 放置 在 展 
WX. HBS SARS, EMME MAS HBR. 





Wordle 为 用 户 提供 了 不 同 的 放置 策略 选项 。 这 些 策略 可 以 通过 确 
定 每 个 单词 “ 想 去 何方 ”的 方式 ， 来 影响 Wordle 最 终生 成 的 图 像 的 形 
状 和 结构 。 在 Wordle 网 站 上 ， 可 以 有 两 种 选择 ， 即 中 心 线 和 字母 中 心 
线 。 这 两 种 策略 都 把 单词 放 在 展现 区 域 的 水 平 中 心 线 附 近 〈 并 不 是 严 
格 地 在 该 中 心 线 上 ， 而 是 随机 分 布 分 散在 中 心 线 附近 ) 。 字 母 策略 以 
字母 顺序 对 单词 进行 排序 ， 然 后 沿 着 X 坐 标 轴 把 单词 分 散 放置 在 展现 区 
域 里 。 








通过 使 用 更 智能 的 放置 集 略 可 以 产生 有 趣 的 效果 。 例 如 ， 给 定 聚 
类 数据 一 一 包含 哪些 单词 通常 互相 使 用 的 信息 ， 这 种 放置 策略 可 以 确 
保 每 个 出 现在 该 聚 类 中 最 后 一 个 单词 附近 的 单词 都 会 被 放置 到 该 展现 
区 域 中 ( 见 图 3-16)。 
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图 3-16: 聚 类 放置 策略 结果 〈 见 彩 图 18 ) 





单词 的 形状 是 通过 相应 的 权 值 降序 排序 。 如 例 3-3 所 示 的 布局 ， 其 
结果 如 图 3-17 所 示 。 例 3-3: 最 后 终于 揭秘 的 Wordle 算 法 


For each word w in sorted words: 
placementStrategy. place (w) 

while w intersects any previously placed words: 
move w a little bit along a spiral path 
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图 3-17: 单词 “Denmark” 所 走 过 的 路 ( 见 彩 图 19) 





为 了 使 事情 变 得 更 加 复杂 一 点 ，Wordle 选 择 性 地 使 单词 包含 在 展 
现 区 域 的 整个 矩形 边界 内 ， 这 也 是 为 什么 要 猜测 整 件 事 情 的 规模 的 一 
个 很 重要 的 原因 。 如 果 启 用 和 矩形 边界 约束 条 件 ， 交 苹 处 理 规则 看 起 来 
如 例 3-4 所 示 。 





例 3-4: 展现 区 域 中 的 约束 性 单词 


while w intersects any previously placed words: 

do { 

move w a little bit along a spiral path 

}while any part of w is outside the playing field and 
the spiral radius is still smallish 


ZEMA 


Bill 3—4 aS KI ARAA ZE eH Ud St AS tld Be] A ED 
该 改变 该 单词 的 位 置 ， 但 是 它 并 没有 指出 如 何 确 定单 词 是 否 交 登 。 基 
于 插值 的 交合 测试 代价 很 高 ， 而 简单 地 选择 几 对 值 进行 比较 义 是 完 
不 可 行 的 。 以 下 是 Wordle 所 采取 的 方法 ， 它 保证 处 理 速度 能 够 足够 
Hi: 


层次 边界 框 


第 一 步 古 减少 测试 两 个 蛙 词 是 否 交 车 的 成 本 。 检 测 下 漏 的 一 个 简 
单 的 办 法 是 比较 两 个 单词 的 边界 框 是 否 交 个 ， 但 是 却 经 常 出 现 两 个 单 
词 并 没有 交合 而 其 边界 框 却 存 在 交 晤 的 情况 。Wordle 充 分 利用 了 和 窍 阵 
比较 代价 低 的 特性 ， 它 递归 地 把 单词 的 边界 框 分 成 更 小 的 矩形 ， 生 成 
一 棵 由 和 矩形 框 生成 的 树 ， 其 叶子 节点 包含 早 词 的 形状 分 块 〈 见 图 3- 
) 。 虽 然 构 建 这 样 的 层次 边界 框 成 本 很 高 ， 但 该 成 本 在 布局 中 得 到 
了 很 大 的 降低 。 为 了 测试 冲突 ， 程 序 递归 地 处 理 相互 重 受 的 矩形 框 ， 
当 存 在 两 个 叶子 节点 重 登 或 者 当 所 有 可 能 存在 重 登 的 分 支 都 被 排除 时 
程序 就 结束 。 通 过 处 理 最 小 尺寸 的 叶子 窍 形 和 对 叶子 矩形 框 进行 稍微 
“膨胀 ”扩大 ， 在 布局 上 ， 单 词 边 框 之 间 就 可 以 得 到 “免费 ”、 让 人 
舒心 的 边 距 。 




















图 3-18: 层次 边界 框 
宽 阶 段 冲 突 检 测 


在 选择 一 对 单词 测试 它们 是 否 存 在 交合 时 ， 最 简单 的 方法 是 对 当 
前 的 候选 单词 和 所 有 已 经 置 位 的 单词 进行 测试 。 这 种 冲突 检测 方法 需 
要 比较 的 次 数 为 N+"”， 当 你 有 200 个 左右 的 单词 需要 测试 时 ， 冲 突 检测 
速度 就 会 过 于 缓慢 。 因 此 ，Wordle 采 取 了 一 些 额外 的 措施 来 尽量 避免 


冲突 测试 。 


BAF 











对 以 上 冲突 检测 方法 的 一 个 简单 有 效 的 改进 是 基于 如 下 的 观察 : 
如 果 单 词 A 和 单词 B 交 暑 ， 如 果 稍 微调 整 A 的 位 置 ， 很 有 可 能 A 还 会 和 B 交 
有 车。 因此 ，Wordle 把 和 一 个 候选 单词 最 经 常 交 番 的 单词 缓存 起 来 ， 首 


先 测 试 这 些 经 常 交 受 的 单词 。 





空间 索引 


为 了 进一步 减少 冲突 检测 次 数 ，Wordle 采 用 了 计算 几何 学 中 的 
“区 域 四 叉 树 ”( Crgion quadtree) 算 法 ， 它 递归 地 把 二 维 空间 (在 
Wordle 中 ， 即 展现 区 域 》 划 分 成 4 个 矩形 区 域 。 在 区 域 四 叉 树 算法 中 ， 
四 又 树 作 为 空间 索引 树 ， 能 够 高 效 地 把 单词 列表 和 其 他 候选 项 进行 比 
较 。 一 旦 在 展现 区 域 中 放置 了 某 个 单词 ，&nbsp; Wordle 就 会 搜索 包 
含 该 单词 的 最 小 的 四 又 树 节 点 。 然 后 ， 当 放置 下 一 个 单词 时 ， 就 可 以 
通过 查询 该 四 叉 树 ， 在 交 伙 测试 中 排除 很 多 已 经 置 位 的 单词 。 








高 效 的 冲突 检测 是 一 个 很 大 的 研究 方向 ， 在 Christer Ericson 的 
i (Real-Time Collision Detection) (2005 年 ) 对 其 中 一 些 研究 成 
果 做 了 很 好 的 综述 。 那 些 对 类 似 于 Wordle 中 所 用 到 的 图 形 算法 感 兴趣 
的 人 ， 我 很 推荐 这 本 书 ， 我 自己 对 四 又 树 的 实现 也 是 基于 该 书 对 这 种 
算法 的 论述 。 
[1] 参考 http: //github. com/vcl/cue. language. 
[2] 如 果 你 想 了 解 自然 语言 理解 这 门 艺 术 ， 请 查看 本 书 的 姊妹 篇 《 数 


据 之 美 》 中 Peter Norvig 写 的 天 于 目 然 语言 处 理 这 一 章 。 
[3] : 参见 http: //unicode. org. 














Wordle 是 优秀 的 信息 可 视 化 吗 


如 果 你 认为 Wordle 是 严格 意义 上 的 信息 可 视 化 工具 ， 它 在 设计 的 
某 些 方面 存在 误导 或 者 干扰 用 户 的 潜在 可 能 ， 有 必要 指出 并 加 以 批 
判 。 以 下 是 我 认为 Wordle 存 在 的 不 足 之 处 。 


单词 大 小 调整 太初 级 





Wordle 在 计算 其 字体 大 小 时 ， 并 没有 考虑 单词 的 长 度 ， 或 者 它 所 
绘制 的 文字 的 字形 。 其 结果 是 ， 给 定 使 用 次 数 相同 的 两 个 单词 ， 包 含 
的 字母 越 多 的 单词 在 屏幕 上 会 占用 更 多 的 空间 ， 这 可 能 会 给 读者 带 来 
这 样 的 印象 单词 越 长 ， 其 出 现 频 上 度 越 高 。 


此 外 ， 据 我 所 知 ， 在 关于 单词 大 小 和 感知 上 的 相对 权重 的 关系 上 
没有 任何 研究 。 更 糟糕 的 是 ， 常 见 的 策略 是 把 单词 的 权 值 根据 其 平方 
根 进行 缩放 〈 为 了 体现 单词 拥有 区 域 而 不 仅仅 是 长 度 这 一 事实 ) ， 这 
只 会 使 Wordle 显 得 很 无 聊 。 











在 你 的 电脑 屏幕 的 中 央 提 供 了 最 宝贵 的 几 个 维度 ， 令 人 吃惊 的 
是 ，Wordle 在 闫 色 使 用 上 非常 “散漫 ”。 在 Wordle 中 ， 闫 色 是 坚 无 意 
义 的 ; 它 仅 仅 是 用 来 提高 单词 边界 的 对 比 度 和 增加 一 些 美 感 。 











颜色 可 以 用 于 对 各 个 维度 进行 编码 ， 如 聚集 〈 意 味 着 这 些 单词 通 
常 是 一 起 使 用 的 ) 或 者 统计 学 意义 〈 如 图 3-19 中 的 总 统 就 职 演说 的 单 
词 云 ) 。Wordle 还 可 以 使 用 颜色 在 同一 空间 表示 两 种 或 者 更 多 不 同 的 
文本 。 








值得 一 提 的 是 ，Wordle 并 没有 为 色盲 的 读者 做 出 什么 特意 安排 ， 
虽然 人 们 总 是 可 以 通过 应 用 小 程序 的 色彩 菜单 栏 创建 一 个 定制 的 调 色 
板 。 
ntegity 6/ EVEI 
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图 3-19: 这 个 演讲 使 用 了 很 多 “Government” (政府 ) 这 个 词 ， 但 
是 在 其 他 演讲 中 该 词 用 得 更 多 ; “pleasing” CMAR) KRH SJL 
次 ， 但 是 它 在 语料库 中 是 一 个 不 寻常 的 单词 ，“people”【〔 人 民 ) 被 
用 了 很 多 ， 其 频率 在 该 演讲 中 非 同 寻常 〈 见 彩 图 20) 


knowledge 
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字体 是 使 人 充满 遐想 的 








Wordle 的 很 多 字体 都 更 倾向 于 美学 和 表现 力 ， 而 不 是 可 读 性 。 这 
么 做 的 原因 一 部 分 是 因为 Wordle 的 Web 站 点 设计 一 一 如 果 缺 乏 形 式 多 样 
的 字体 ， 画 面 将 是 单调 的 。 最 重要 的 是 ，Wordle 中 的 字体 必须 看 起 来 
很 优美 ， 这 意味 着 它 不 一 定 很 适合 于 正文 文本 。 











对 于 易 读 性 至 关 重 要 的 应 用 ，Wordle 提 供 了 Ray Larabie 的 


Expressway ZIK |!) ， 该 字体 被 美国 运输 部 作为 标准 字母 。 
字数 计数 不 够 具体 


Wordle 对 《New Testament) “中 的 每 一 卷 的 页 面 中 出 现 的 
“Lord” (CE) 这 个 单词 的 次 数 进行 了 求 和 ， 但 是 它 没 有 提供 任何 
关于 各 个 章节 的 区 别 的 信息 。 仪 仅 简 单 地 对 单词 计数 并 不 能 对 相似 的 
文本 做 出 有 意义 的 比较 。 比 如 有 一 个 博客 帖子 ， 突 出 该 帖子 和 该 博客 
的 其 他 帖子 的 不 同 之 处 ， 或 者 说 明 它 和 其 他 博客 的 在 同一 主题 上 的 区 
别 ， 甚 至 是 说 明 该 帖子 和 新 闻 报 道 文章 的 用 语 的 不 同 ， 这 些 方面 的 说 
明 可 能 是 最 具有 局 迪 性 的 。 








存在 很 多 统计 学 方法 ， 可 以 应 用 于 一 篇 “样本 ”文章 ， 来 基于 
些 “范文 ”的 正文 来 抽取 “样本 ”中 的 特定 字符 ， 尤 其 注意 一 些 单词 
的 使 用 在 统计 上 是 更 重要 的 。 除 了 单词 出 现 频 度 ， 还 可 以 对 单词 权重 
进行 更 细致 深入 地 探析 ， 然 后 应 用 Wordle 布 局 算法 来 展示 结果 。 





在 分 析 每 个 总 统 就 职 演说 “ 时， 我 都 探索 了 这 个 想法 ， 把 每 个 
演说 都 和 当时 最 接近 的 5 个 演讲 、10 个 最 接近 的 演讲 以 及 所 有 其 他 的 就 
只 演说 进行 了 比较 。 这 种 分 析 的 优点 是 可 以 揭示 一 些 不 可 预见 的 单 
词 。 举 个 例子 ， 图 3-20 是 哈里 。 杜鲁门 在 1948 年 的 就 职 演说 的 可 视 
化 。 左 侧 是 该 束 职 演说 中 使 用 的 单词 的 Wordle 形 式 的 展现 ， 右 侧 是 他 
那个 时 代 的 其 他 总 统 所 使 用 次 数 更 多 的 单词 的 展现 。 该 可 视 化 展现 说 
明了 杜鲁门 的 演说 强调 的 是 对 外 政策 。 
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图 3-20: 哈里 。 杜鲁门 在 1948 年 的 总 统 就 职 演说 : 和 他 同时 代 的 其 
他 总 统 就 职 演 说 相 比 ， 杜 鲁 门 的 演说 当中 很 明显 缺乏 那些 红色 标注 的 


单词 〈 见 彩 图 21) 

[1] Ray Larabie 是 加 拿 大 的 一 名 字体 设计 学 家 。 他 创作 提供 了 很 多 免 
费 字体 ，Expressway 是 其 中 一 种 。 

[2] 《新 约 全 书 》， 共 27 卷 。 

[3] 参考 


http: //researchweb. watson. ibm. com/visual/inaugurals/. 


= 





如 何 真正 使 用 Wordle 





Wordle 不 是 为 可 视 化 专家 、 文 本 分 析 专 家 甚至 是 有 经 验 的 计算 机 
用 户 而 设计 的 。 我 试 着 把 Wordle 做 得 尽 可 能 像 个 工具 。 





在 撰写 本 章 时 ， 人 们 在 Wordle 男 廊 中 己 经 创造 、 保 存 了 超过 140 万 
的 “单词 云 ”。 这 些 单词 云 被 用 于 ; 总 结 和 修饰 商务 演示 和 博士 论 
文 ， 插 图 说 明 新 的 文章 和 电视 新 闻 报 道 ， 提 炼 和 抽象 受害 者 个 人 痛 百 
的 回忆 。Wrodle 还 发 现形 形 色 色 的 充满 热情 的 教师 社区 ， 他 们 使 用 
Wordle 来 展示 拼写 列表 、 上 总结 话题 以 及 促使 不 识字 的 青年 参与 到 享受 
文本 的 乐趣 中 。 














如 表 3-1 的 调查 结果 表明 ( (Vegas, Wattenberg#llFeinberg, 
2009) ， 使 用 Wordle 激 发 了 人 们 的 创造 力 ， 人 们 会 觉得 他 们 正在 做 创 
造 性 的 事情 。 


表 3-1: 人 们 创造 Wordle 时 的 感受 


赞成 % 中 立 % 不 赞成 % 
激发 我 的 创造 力 88 9 4 
我 感到 一 种 情绪 反应 66 22 12 
从 文本 中 我 学 到 了 一 些 新 的 知识 63 24 13 


它 证 实 了 我 对 文本 的 理解 


Wordle 使 我 感到 困惑 





因此 ， 通 过 对 可 视 化 效能 应 用 传统 的 学 术 评 估 一 一 “从 文本 中 我 
学 到 了 一 些 新 的 知识 ”一 一 全 少 可 以 认为 Wordle 是 比较 成 功 的 。 但 是 
Wordle 真 正 内 光 之 处 在 于 其 交际 作品 的 创作 。 使 用 Wordle 的 人 们 感觉 
他 们 似乎 创造 了 一 些 东 西 ， 它 成 功 地 表示 一 些 有 意义 的 事物 ， 并 准确 
地 反映 或 增强 了 源 文 本 。 这 种 意义 看 起 来 主要 是 直观 的 ， 因 为 很 多 人 
并 没有 意识 到 单词 大 小 和 单词 频 度 是 相关 的 《相反 地 ， 猜 测 该 大 小 表 

“情感 重视 ”甚至 是 “单词 意义 ”) 。 





Wordle 的 特性 缘 于 文本 的 特性 。 只 是 简单 地 把 一 个 单词 放 到 屏幕 
上 ， 其 字体 要 么 对 单词 本 身 的 涵义 进行 补充 ， 要 么 对 其 进行 有 反衬， 可 
以 马上 使 读者 产生 共鸣 (实际 上 ， 在 公共 画廊 上 保存 了 成 干 上 万 的 单 

) 。 妆 你 把 两 个 或 者 更 多 的 单词 并 排 展示 时 ， 一 个 有 文化 的 人 就 会 
自然 而 然 地 去 理解 该 序列 化 单词 。Wordle 对 单词 的 随机 组 合 给 人 们 创 
ig Sethi. Re. RATER, DR ure A SNE Se 
力 。 











为 传统 的 信息 可 视 化 使 用 Wordle 


Wordle 的 信息 可 视 化 分 析 用 途 当 然 可 以 为 专业 用 户 所 用 ， 更 不 用 
说 Wordle 所 具备 的 特定 的 情感 和 交际 特性 。 为 了 满足 那些 使 用 Wordle 
给 “加 权 文 本 ”创建 可 视 化 的 用 户 ， 其 权重 不 一 定 是 基于 单词 的 出 现 





频 度 ，Wordle 的 Web 站 点 提供 了 “高 级 ”用 户 界面 ， 用 户 可 以 输入 包含 
FER CHIE) 色彩 的 加 权 单 词 或 短语 的 表格 数据 。 


Wordle 的 更 高 级 的 使 用 方式 可 能 是 通过 “单词 云 生 成 器 ”控制 台 
应 用 程序 ， 可 以 通过 IBM 的 alphaWorks Web 站 点 进行 查看 U 。 


ManyEyes 协 作 式 数据 可 视 化 网 站 还 把 Wordle 作 为 文本 可 视 化 选 
页 ， 其 他 的 还 有 创新 型 的 Phrase Net 和 Word Tree 可 视 化 (以 及 更 传统 
ae 
|1] 参考 http: //www. alphaworks. ibm. com/tech/wordcloud. 
[2] 参考 


http: //manyeyes. alphaworks. ibm. com/manyeyes/page/Visualizati 
on Options. html. 


结束 语 


人 们 通常 希望 保存 和 分 享 他 们 创作 的 Wordle; 他 们 利用 Wordle 进 
行 沟通 。 美 丽 的 可 视 化 在 揭示 事物 的 本 质 时 ， 也 给 人 们 提供 了 乐趣 。 
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参阅 http: //www. wordle. net/credits. 





参考 文献 


1. Ericson, Christer. 2005. Real-Time Collision Detection. San 


Francisco, CA:Morgan Kaufmann. 


2.Millen,D.R., J. Feinberg, and B. Kerr. 2006. “Dogear:Social 
bookmarking in the enterprise. ” Proceedings of the SIGCHI 
Conference on Human Factors in Computing 
Systems (Montréal, Québec, Canada, April 22-27, 


2006) . http: //doi. acm. org/10. 1145/1124772. 1124792. 


3. Viégas, Fernanda B., Martin Wattenberg, and Jonathan 
Feinberg. 2009. “Participatory visualization with Wordle. ” 
IEEE Transactions on Visualization and Computer Graphics 15, 


no.6( (Nv/Dec 2009) : 1137-1144. doi: 10. 1109/TVCG. 2009. 171. 


第 4 章 色彩 : 数据 可 视 化 的 “ 灰 姑 
uk” Michael Driscoll 





避免 带 来 灾难 成 为 给 信息 增添 色彩 时 的 首要 原则 : 最 重要 的 是 ， 
不 要 造成 伤害 。 


一 一 Edward Tufte， 
«Envisioning Information) ( (Gaphics 出 版 社 ) 


色彩 是 数据 可 视 化 中 滥用 和 忽视 最 严重 的 工具 之 一 : 当 我 们 做 出 
不 好 的 色彩 选择 时 ， 我 们 滥用 了 它 ， 而 当 我 们 依赖 于 功能 很 弱 的 软件 
默认 值 设置 时 ， 我 们 忽视 了 它 。 虽 然 历 史上 工程 师 和 最 终 用 户 都 没有 
用 好 色彩 这 个 工具 ， 然 而 如 果 能 够 善 用 它 ， 它 将 是 一 个 无 与 伦比 的 可 
视 化 工具 。 


绝 大 多 数 人 在 穿着 亮 红色 的 Underoos “1 出门 前 会 三 思 而 后 行 。 
要 是 我 们 在 为 资讯 图 像 选 择 色 彩 时 也 能 如 此 慎重 就 好 了 ! 其 区 别 在 于 
我 们 当中 很 少 有 人 设计 自己 的 衣服 ， 而 我 们 都 需要 修饰 自己 的 资讯 图 
像 ， 使 得 色彩 能 够 符合 我 们 的 目的 “至 少 直 到 好 的 色彩 板 (如 
ColorBrewer) 变 得 普遍 起 来 〉。 





在 思索 如 何 实现 Dataspora 实 验 室 的 PitchFX 观 察 仪 的 色彩 时 ， 我 
提出 了 一 个 基本 的 目标 取 问 问题 ， 为 什么 在 数据 图 像 中 使 用 色彩 ? 我 
们 随后 将 探讨 该 问题 。 


为 什么 在 数据 图 像 中 使 用 色彩 


对 于 一 个 简单 的 数据 集 ， 单 一 色彩 是 足够 的 〈 甚 至 是 更 好 的 ) 。 
例如 ， 图 4-1 显 示 了 大 联盟 2 棒球 员 0scar Villarreal 在 2008 年 的 
287 次 投掷 的 散 点 图 。 只 需要 描述 二 维 数 据 一 一 


“好 球 带 ( (srike zone)” |°! 的 x 轴 和 y 轴 坐标 一 一 黑白 两 色 就 
足够 了 。 实 际 上 ， 这 种 散 点 图 是 数据 集 的 无 损 表 示 《〈 假 定 没 有 数据 点 


HEES) ， 也 是 其 最 佳 的 选择 。 
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图 4-1: (A x/y Abbe F E Res C8 1 E. 


但 是 如 果 我 们 希望 了 解 更 多 ， 该 怎么 做 ? 举 个 例子 ， 不 同 的 投 撕 
(曲线 球 、 快 球 ) 最 后 的 落地 点 在 哪里 ? 它们 的 速度 如 何 ? 可 视 化 占 
用 了 两 个 维度 ， 但 是 其 所 描述 的 现实 世界 的 范畴 却 要 宽泛 得 多 。 





数据 可 视 化 的 典型 挑战 是 把 高 维度 的 数据 投影 到 低 维度 的 画布 
上 。 通 常 来 说 ， 我 们 永远 都 不 要 把 二 者 颠倒 〈 对 数据 可 视 化 生成 比 已 
有 更 多 的 维度 ) 。 


回 到 我 们 之 前 讨论 的 有 关 的 棒球 投掷 的 例子 ， 如 果 想 要 对 它 增 加 
一 维 数 据 一 一 投掷 类 型 一 一 到 汇总 图 中 ， 我 们 可 以 通过 以 下 几 种 方式 
来 实现 : 





1. 绘图 符 写 。 可 以 改变 我 们 所 使 用 的 图 形 A EES 


2. 小 的 多 重 图 形 。 我 们 可 以 在 空间 上 增加 一 些 额外 维度 ， 创 建 一 
系列 小 的 图 形 。 


3. 色 彩 。 我 们 可 以 对 数据 进行 着 色 ， 在 一 个 色彩 空间 内 对 额外 的 
维度 进行 编码 。 


在 可 视 化 中 你 应 该 采用 哪 一 种 技术 取决 于 数据 的 本 质 和 展现 的 画 
布 媒介 。 我 将 通过 例子 来 描述 这 3 种 方法 。 


使 用 多 种 绘图 符号 


在 图 4-2 中 ， 我 通过 使 用 不 同 的 绘图 符号 ， 在 绘图 中 增加 了 投掷 类 
型 的 属性 维度 。 





X 坐标 


Al 4-2: 绘图 符号 表示 的 位 置 和 投掷 类 型 


我 认为 该 可 视 化 是 可 耻 的 失败 。 有 两 个 原因 令 我 们 对 这 类 图 形 感 
到 头痛 : 一 是 区 别 显 著 的 图 形 需 要 分 散 我 们 额外 的 注意 力 (和 学 术 上 
所 谓 的 像 色 彩 那 样 “ 前 意识 注意 的 ( (peattentively processed) ” 
A 暗示 不 同 ) ， 二 是 即使 我 们 对 符号 进行 视觉 解码 ， 我 们 必须 把 这 
些 符 写 和 它们 的 语义 属性 进行 匹配 (诚然 ， 通 过 切 尔 诺 夫 脸谱 图 








( (Cernoff faces) ©! 或 者 其 他 符号 标识 ， 可 以 减少 工作 量 ， 因 为 它 


们 的 属性 映射 是 不 证 自明 的 ) 。 

|1] Underoos 是 一 种 内 衣 品 牌 ， 由 Fruit of the Loom 公 司 制造 ， 其 特 
征 是 花哨 ， 充 满 性 感 和 幻想 。 

[2] 美国 职业 棒球 联赛 中 档次 最 高 的 一 级 。 

13] “好 球 带 ” 指 的 是 以 棒球 击 球员 之 肩 部 上 缘 与 球 裤 上 缘 之 中 间 平 
行 线 作为 上 限 ， 以 膝盖 下 缘 作 为 下 限 ， 通 过 本 垒 板 上 方 的 空间 。 

[4] preattentive processing 指 的 是 在 信息 可 视 化 中 自动 从 整个 可 视 
化 区 域 中 识别 出 基本 的 特征 。 可 以 参考 http: //www. infovis- 

wiki. net/index. php/Preattentive processing 了 解 更 多 。 

(5) 切 尔 诡 夫 脸谱 图 是 一 种 多 元 统计 学 表示 方式 ， 它 以 多 元 数据 显示 
人 脸 ， 通 过 形状 、 大 小 、 位 置 、 方 同 各 个 变量 来 表示 眼睛 、 耳 条、 嘴 
巴 、 虹 子 等 。 其 思想 是 人 们 可 以 很 容易 识别 人 脸 的 微小 变化 。 请 参考 
http: //en. wikipedia. org/wiki/Chernoff face 了 解 更 多 信息 。 























在 画布 上 使 用 小 的 多 各 图 形 





虽然 Edward Tufte 已 经 做 了 很 多 工作 来 促进 小 的 多 重 图 形 在 信息 
图 形 中 的 应 用 ， 在 分 块 化 的 画布 中 增加 额外 的 维度 是 一 款 很 优秀 的 方 
式 。 这 种 技术 已 经 被 应 用 于 方方面面 ， 从 伽利略 的 “太阳 黑子 说 明 
图 ”到 William Cleveland 的 “网 格 图 ”。 随 着 Scott McCloud 因 创建 
了 令 人 惊喜 的 卡通 漫画 而 变 得 人 所 省 知 ， 连 环 画 能 够 讲述 故事 ， 而 这 
一 能 力 是 单一 、 整 体 的 画布 所 缺乏 的 。 











如 图 4-3 所 示 ，0scar 扔 出 的 4 种 类 型 的 投掷 在 水 平方 向 上 的 分 组 。 
通过 减少 图 像 尺 寸 ， 我 们 降低 了 在 位 置信 息 显 示 上 的 分 辩 率 。 但 是 由 
此 换 来 的 是 ， 在 第 一 张 图像 中 无 法 识别 、 在 第 二 张 图 像 中 通过 多 种 
符号 ) 无 法 分 辨 的 模式 现在 这 张 图 像 中 开始 变 得 清晰 了 (《〈0car 投 掷 的 
快 球 位 置 很 低 ， 而 请 球 位 置 很 高 ) 。 











在 印刷 媒介 上 ， 在 空间 上 切 分 多 重 图 片 效果 尤其 显著 ， 这 种 方式 
可 以 显示 一 个 屏幕 上 每 平方 英寸 所 显示 的 点 数 的 10 倍 。 额 外 的 图 形 还 
可 以 通过 列 和 行 的 方式 进行 排列 ， 作 为 散 点 图 矩阵 显示 《请 参阅 统计 
工具 R 的 splom 函 数 上 ) 。 


[1] 关于 统计 工具 R， 你 可 以 访问 http: //www. r-project. org/ 了解 更 
多 。 


给 数据 增添 色彩 


在 图 4-4 中 ， 我 使 用 了 颜色 对 投掷 数据 的 第 四 维 进行 编码 : 投掷 的 
速度 。 我 选择 的 色彩 板 是 在 Lab 色 彩 空 间 1! 中 沿 着 一 个 维度 变化 的 
《可 以 把 它 想 象 成 “ 红 - 蓝 ”维度 ) ， 且 同时 能 够 维持 恒定 的 亮度 。 








站 
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图 4-4: 位 置 和 投掷 类 型 ， 投 搓 速 度 是 通过 一 维 的 色彩 板 来 显示 的 
( 见 彩 图 22 ) 


一 方面 ， 维 持 恒 定 腕 度 有 好 处 ， 因 为 亮度 (lminosity) 〈 类 似 于 
明亮 度 ( (bightness) ) 决定 了 一 种 色彩 给 人 们 所 带 来 的 视觉 影响 。 亮 
丽 的 色彩 会 突出 显示 ， 上 暗淡 的 色彩 会 显得 模糊 。 采 用 党 度 随 色彩 变换 
的 色彩 板 会 把 人 工 选择 的 部 分 数据 点 的 色彩 作为 艺术 品 展 示 。 














另 一 方面 ， 亮 度 和 色调 不 同 ， 亮 度 具有 色调 所 不 具备 的 内 在 次 序 
特征 ， 这 一 特征 使 得 它 适 合 于 描述 定量 〈 而 不 是 绝对 ) 维度 的 数据 。 








因为 在 本 章 后 面 我 将 使 用 亮度 对 数据 的 男 一 维度 进行 编码 ， 所 以 
我 决定 在 这 里 采用 色调 对 速度 进行 编码 ， 它 足以 达成 我 们 的 目标 。 我 
只 选择 7 种 色 阶 ， 因 此 (以 有 损 方式 ) 降低 了 对 速度 的 采样 频率 。 把 色 
调 板 划分 成 过 多 的 色 阶 会 使 我 们 难以 辨别 不 同 的 色调 。 在 该 版 本 的 编 
码 显 示 中 ， 不 同 于 所 有 先前 绘图 所 用 的 空心 圆圈 ， 我 还 选择 使 用 实心 
圆圈 作为 画图 符 。 这 种 编码 显示 通过 色彩 改进 了 对 每 次 投掷 的 速度 的 
直观 可 视 化 : 面积 小 的 色彩 块 看 起 来 不 明显 。 然 而 ， 这 种 选择 把 投掷 
速度 的 可 视 化 展现 和 一 系列 更 小 的 图 片 组 合 在 一 起 ， 其 结果 是 存在 更 
多 的 数据 点 重 登 。 为 此 ， 我 们 进一步 降低 了 一 些 位 置信 息 的 分 辨 率 
(我 们 很 快 将 试 着 恢复 其 中 一 些 信息 ) 。 














|1] 参考 http: //en. wikipedia. org/wiki/CIELUV color space. 


为 什么 要 使 用 颜色 


和 绝 大 多 数 的 印刷 媒介 相 比 ， 电脑 的 显示 空间 更 小 ， 但 是 其 能 够 
显示 的 色 阶 范围 更 三 。 因 此 ， 丰 语 的 色彩 是 电脑 在 显示 上 的 很 大 优 
势 。 


对 于 多 维 数据 ， 色 彩 可 以 表达 单位 空间 内 额外 的 维度 ， 而 且 可 以 
即时 达到 这 种 效果 。 


颜色 差异 可 以 在 200 坚 秒 内 被 检测 到 ， 甚 至 在 你 注意 到 它 的 变化 之 
前 《 即 我 之 前 提 到 的 “前 意识 注意 ”的 概念 ) 就 可 以 检测 。 








但 是 在 多 元 图 形 中 使 用 色彩 的 最 重要 的 原因 是 因为 色彩 本 身 是 多 
维 的 。 我 们 感官 上 的 色彩 空间 一 一 不 论 你 怎么 细 分 一 一 都 是 三 维 的 。 
现在 ， 我 们 在 可 视 化 中 引入 了 色彩 ， 但 是 我 们 只 对 一 个 维度 进行 了 编 
AG: 速度 。 这 给 我 们 带 来 了 男 外 一 个 问题 。 


如 果 色 彩 是 三 维 的 ， 可 以 用 它 进 行 三 维 编码 吗 


理论 上 ， 答 案 是 肯定 的 一 一 Colin Ware (2000 年 ) 兽 经 使 用 红 
色 、 蓝 色 和 绿色 作为 三 维 坐标 轴 研 究 了 这 个 问题 。 《我们 将 很 快 看 到 
其 他 有 用 的 色谱 划分 方式 。) 然而 ， 该 研究 在 实践 上 却 很 困难 。 最 终 
解决 方式 是 请 一 批 观察 员 来 评估 “红色 ”、“ 蓝 色 ” 和 “绿色 ”的 点 
的 数量 并 进行 展示 ， 但 是 这 种 方式 很 不 直观 。 





另 一 个 复杂 的 因素 是 有 某 种 色盲 〈 也 称 为 双色 盲 ( (dchromacy) ， 
一 种 不 同 于 正常 的 三 原色 盲 ( (tichromacy) 的 色盲 类 型 ) 的 人 数 占 的 
比例 不 低 。 它 可 以 有 效 地 把 对 色彩 的 感知 减少 到 两 个 维度 。 


最 后 ， 事 实 上 我 们 对 所 有 维度 的 色彩 的 感知 不 是 等 同 的 :， 有 的 对 
黄色 感知 力 比 较 弱 ， 而 有 的 对 赣 色 感知 力 比 较 弱 。 我 们 认为 紧密 相关 
的 “ 红 ” 和 “ 绿 ” 接 收 器 是 通过 复制 单一 长 波 的 接收 器 而 产生 的 〈“ 据 
载 ， 这 种 方法 对 于 检测 水 果 是 人 否 成 熟 很 有 用 ) 。 


因为 色盲 人 口 在 整个 人 口 中 的 比例 很 高 ， 而 且 对 三 维 色彩 进行 编 
码 挑战 很 大 ， 我 相信 如 果 使 用 色彩 对 数据 编码 ， 数 据 的 维度 最 好 不 要 
超过 两 个 。 


亮度 作为 恢复 局 部 密度 的 方法 


作为 对 投 撕 数 据 可 视 化 的 最 后 一 次 迭代 ， 如 图 4-5 所 示 ， 我 将 介绍 
使 用 亮度 对 局 部 数据 点 的 密度 进行 编码 的 方法 。 运 用 这 种 方法 ， 我 们 
可 以 通过 增加 绘图 符号 的 大 小 的 方式 来 恢复 一 些 损失 的 数据 。 








这 里 ， 我 们 有 效 地 运用 了 二 维 色彩 板 ， 其 中 蓝 色 和 红色 沿 着 一 条 
坐标 轴 来 表示 速度 变化 ， 亮 度 沿 着 另 一 条 坐标 轴 来 表示 局 部 密度 的 变 
化 。 正 如 “方法 ”一 节 中 所 详细 描述 的 ， 这 些 绘图 是 通过 使 用 统计 工 
具 R 的 “色彩 空间 包 ”( (clor space package) 来 创建 的 ， 该 包 提 供 了 
在 任何 一 个 主 色彩 空间 (RB、HSV、Lab) 中 指定 颜色 的 功能 。 因 为 Lab 
色彩 空间 的 颜色 变化 和 亮度 无 关 ， 我 选择 该 色彩 空间 来 创建 这 个 特定 
的 二 维 色彩 板 。 
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速度 (英里 /小 时 ) 
图 4-5: 位 置 和 投掷 类 型 ， 通 过 二 维 色 彩 板 表示 投掷 速度 和 局 部 密度 
( 见 彩 图 23) 


关于 亮度 的 最 后 一 点 是 在 数据 可 视 化 中 观测 多 种 不 同 颜 色 涉及 编 
程 学 上 的 “ 重 载 ”。 也 就 是 说 ， 我 们 依赖 于 认 知 范 数 ， 这 些 函数 为 了 
某 个 应 用 而 开发 (如 展示 1ions)， 而 实际 中 可 以 用 于 其 他 应 用 中 (如 


展示 lines) H 。 


我 们 可 以 对 颜色 以 任何 方式 进行 重 载 ， 但 是 只 要 可 能 ， 我 们 还 是 
应 该 选择 自然 的 展现 方式 。 用 亮度 表示 投掷 密度 给 人 感觉 很 自然 ， 因 
为 在 投掷 绘图 中 颜色 越 深意 味 着 投掷 越 远 。 类 似 地 ， 当 通过 色彩 空间 
进行 抽样 时 ， 我 们 不 妨 选 择 自然 界 中 真实 的 颜色 来 表示 。 目 然 界 中 存 





在 了 人 们 已 经 通过 肉眼 凝视 了 几 百 万 年 的 “色彩 板 ”， 它 远 远 早 在 出 
现 RGB 色 彩 空 间 之 前 就 已 经 存在 了 。 


[1] lions 和 1lines 只 差 一 个 字母 ， 可 以 利用 “ 重 载 ”， 使 用 同一 色彩 
空间 进行 展示 。 


展望 未 来 : 关于 动画 


本 章 讨论 的 重点 是 使 用 一 般 的 静态 图 形 ， 尤 其 是 使 用 色彩 作为 多 
元 数据 可 视 化 方法 。 我 有 意 地 忽略 了 数据 中 另 一 个 非常 强大 的 维度 : 
时 间 。 时 间 可 以 把 图 像 变 成 动画 ， 从 而 把 几 个 数量 级 的 信息 量 都 纳入 
可 视 化 中 一 个 震撼 人 心 的 例子 是 Aaron Koblin 对 美国 和 加 拿 大 的 飞 
行 模式 所 做 的 可 视 化 ， 在 第 6 章 中 将 会 深入 探讨 ) 。 但 是 把 这 些 信 息 植 
入 随时 间 变 化 的 数据 结构 之 中 需要 付出 很 多 努力 ， 而 且 让 数据 以 动画 
这 种 富 信 息 化 的 方式 展示 而 不 仅仅 是 在 艺术 上 达到 美观 的 效果 ， 还 是 
非常 有 挑战 性 的 。 动 画 可 视 化 的 经 典 方式 〈 相 当 于 静态 可 视 化 中 的 直 
方 图 、 箱 型 图 和 散 点 图 ) 的 发 展 仍然 需要 有 很 长 的 路 要 走 ， 但 是 像 
Processing ||! 这样 的 框架 是 帮助 其 发 展 的 良好 的 开端 。 








[1] : 参见 http: //processing. org. 


方法 


本 章 谈 及 的 可 视 化 都 是 使 用 R 编 程 语言 和 Lattice 图 形 包 开 发 实现 
的 。 通 过 R 语 言 构建 二 维 色彩 板 的 代码 如 下 所 示 : 


##colorPalette. R 

##builds an(m x n) 2D palette 

##by mixing 2 hues(coll, col2) 

##and across two luminosities(luml, lum2) 

#H#returns a matrix of the hex RGB values 
makePalette<-function(coll, col2, luml, lum2, m,n, =- j { 
C< -matrix (data=NA, ncol=m, nrow=n) 

alpha< -seq (0, 1, length. out=m) 

##for each luminosity level (rows) 

lum<-seq(luml, lum2, length. out=n) 

for(i in 1: n) { 

cl<-LAB(lum[i], coords(coll) [2], coords(coll) [3]) 
c2< -LAB (lum[i], coords(col2) [2], coords(col2) [3]) 
##for each mixture level (columns) 

for(j in 1: m) { 

c<-mixcolor(alphalj]l, cl, c2) 

hexc< -hex (c, fixup=TRUE) 

Cli, j]<-hexc 

} 


} 

return (C) 

} 

#H#plot a vector or matrix of RGB colors 

plotPalette<-—function(C, =% ) { 

if C! is.matrix(C) ) { 

n<-l 

C< -t (matrix (data=C) ) 

}else{ 

n<-dim(C) [1] 

} 

plot (0, 0, type=”n”, xlim=c (0，1) ，ylim=c (0，n) ， 
axes=FALSE, 

mar=c (0, 0, 0, 0), =e- ) 

##helper function for plotting rectangles 


plotRectangle<-function(col, ybot=0, ytop=1, border=" light 
gray”) { 

n<-length (col) 

rect (0: (n-1) /n,ybot, 1: 
n/n, ytop, col=col, border=border, mar=c (0, 0, 0, 0) ) 

} 


for(i in 1: n) 4 
plotRectangle(C[i, ], ybot=i-1, ytop=i) 


} 

##Let s put it all together. 

##We make two colors in the LAB space, and then plot a 2D palette 

##going from 60 to 25 luminosity values. 

library (colorspace) 

lightRed= -LAB (50, 48, 48) 

lightBlue<—LAB (50, -48, -48) 

C<-makePalette(coll=lightBlue, col2=lightRed, lum1=60, lum2=25, 
m=7, n=7) 

plotPalette(C, xlab=’ speed’, ylab=’ density’ 


结束 语 


正如 本 章 给 出 的 例子 所 展示 的 ， 色 彩 〈 如 果 可 以 慎重 、 负 责 地 使 
用 ) 在 对 高 维度 数据 进行 可 视 化 时 可 以 作为 一 个 非常 宝贵 的 工具 被 使 
用 。 其 最 终 产 品 一 一 对 2008 年 赛季 的 所 有 数据 的 五 维 投掷 图 一 一 可 以 
通过 由 PitchFX Django 驱 动 的 Web 工 具 ， 在 Dataspora 实 验 室 进行 深入 


探索 ( (htp: //labs. dataspora. com/gameday/) o 
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第 5 章 ”信息 映射 : 重新 设计 纽约 地 铁 图 
Eddie Jabbour (Julie Steele 执 笔 ) 








地 图 是 已 有 的 最 基本 的 数据 可 视 化 中 的 一 种 ， 我 们 已 经 有 几 千 年 
的 地 图 制作 历史 。 然 而 ， 我 们 并 没有 把 地 图 作为 理解 复杂 系统 的 一 种 
工具 并 加 以 完善 一 一 拥有 26 条 地 铁 线 、468 个 站 点 并 覆盖 了 5 个 市 区 的 
纽约 地 铁 系 统 ， 毋 庸 置疑 是 相当 复杂 的 。KickMap 是 我 为 了 设计 一 种 更 
为 有 效 的 地 铁 图 所 做 的 探索 的 成 果 ， 其 最 终 的 目标 是 增加 乘坐 地 铁 的 
AR 








需要 更 好 的 工具 


我 出 生 在 纽约 的 星 后 区 (〈Qeens) ， 在 布鲁克 林 区 (〈Booklyn) 长 

大 。 我 看 到 的 第 一 张 地 铁 图 是 我 父亲 的 ， 时 间 大 约 在 1960 年 。 它 给 
留 下 了 深刻 的 印象 ， 因 为 它 当 时 吓 到 了 我 。 通 过 该 地 铁 图 ， 我 看 到 的 
个 灰色 的 纽约 ， 红 色 、 绿 色 和 黑色 线条 纵横 交错 ， 看 起 来 像 一 个 
网 格 ， 如 图 5-1 所 示 ， 而 且 地 图 上 面 还 有 数 以 百 计 的 站 点 名 字 “! 。 它 
让 我 想起 了 一 张 自 己 无 法 理解 的 复杂 无 比 的 电路 图 ， 它 看 上 去 带 着 一 
股 “ 成 年 人 的 肃穆 ”， 甚 至 有 点 恐怖 。 我 希望 自己 永远 都 不 要 和 它 打 


交道 。 
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5-1: 由 George Salomon 设 计 的 1958 版 的 纽约 地 铁 图 (1958 版 纽约 
地 铁 图 。MTA 纽 约 城市 运输 图 。 已 授权 使 用 ， 见 彩 图 24) 


(1) : 我 现在 知道 该 地 图 是 Salomon 设 计 的 地 图 的 早期 版 本 。 多 年 以 
后 ， 当 我 为 创作 KickMap 调 研 时 ， 我 应 该 感谢 这 张 地 图 体现 的 设计 之 
ee 
FE o 
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在 伦敦 ， 我 的 专业 是 设计 学 ， 花 了 半年 时 间 在 伦敦 大 学 学 习 。 在 
个 自己 从 未 去 过 的 大 城市 里 ,一切 都 得 靠 自己 。 我 很 快 了 解 到 伦敦 
地 铁 是 该 城市 的 主要 交通 方式 ， 而 “地 铁 图 ”( (Tbe map) 是 弄 清楚 出 
行路 线 的 关键 。 该 地 铁 图 〈 即 图 5-2 所 示 的 著名 的 Beck 地 铁 图 ) 非常 友 
好 : 简单 、 明 亮 、 色 彩 绚丽 ， 其 设计 目标 在 于 帮助 用 户 理解 线路 之 间 
的 连接 关系 ， 而 且 它 非常 小 巧 。 折 受 起 来 后 ， 可 以 很 方便 地 塞 到 口 48 
里 ， 当 需要 参考 查看 时 ， 可 以 随时 随地 地 打开 使 用 (我 经 常 这 人 么 
做 ) 。 








图 5-2: Harry Beck 的 伦敦 地 铁 图 ， 它 使 得 一 个 复杂 的 系统 看 起 来 简 
单 优 雅 〈1933 版 伦敦 地 铁 图 。 伦 敦 交 通 博物 馆 收 藏 。 已 授权 使 用 ， 见 
彩 图 25) 


伦敦 是 一 座 中 世纪 的 城市 ， 因 此 其 街道 布局 是 随机 的 。 罕 过 案 曲 
的 十 字 路 口 ， 你 所 在 的 街道 的 名 称 就 变 了 。 它 没有 一 个 带 有 编号 的 网 
格 来 作为 参照 ( 像 纽 约 那 样 )， 在 这 个 城市 中 行走 很 容易 迷失 方向 。 
Beck 地 图 的 天 才 之 处 在 于 它 摆 胶 了 随机 复杂 性 ， 以 泰晤士 河 作为 地 上 
可 视 化 (和 地 理 ) 的 唯一 参考 点 。 基 于 这 个 原因 ， 地 图 的 布局 是 标志 
PERT: 当 你 想到 伦敦 ， 你 很 可 能 会 想到 地 铁 图 。 但 是 即使 像 我 这 样 一 
个 设计 专业 学 学 生 ， 在 那 时 也 并 没有 对 该 地 图 的 形式 风格 做 进一步 思 
考 一 一 它 使 用 起 来 是 如 此 简单 方便 ， 让 人 感觉 出 门 旅行 台 不 费 工 夫 。 


























有 了 这 张 小 而 有 效 的 地 图 ， 以 及 “ 想 去 哪 就 去 哪 ”、 可 以 无 限 次 
使 用 的 地 铁 月 卡 ， 我 每 天 都 可 以 乘 地 铁 在 伦敦 穿梭 。 我 轻松 自在 地 去 
任何 地 方 ， 充 分 利用 伦敦 这 座 伟大 的 城市 中 的 资源 。 伦 敦 地 铁 图 如 此 
快速 、 清 晰 地 传递 信息 ， 成 为 我 的 经 历 中 不 可 分 割 的 工具 和 组 成 部 
分 。 写 使 得 我 在 伦敦 仅仅 生活 了 几 周 之 后 ， 就 有 这 样 的 感觉 : 伦敦 是 
“我 的 ”。 多 么 奇妙 、 强 大 的 感觉 ! 








事实 上 ， 我 对 这 个 宝贵 的 工具 如 此 “依恋 ”， 在 我 吉 留 的 最 后 时 
期 ， 即 离开 这 座 城市 之 前 ， 我 去 当地 的 地 铁 站 买 了 一 张 新 的 地 铁 图 ， 
并 在 我 回 到 纽约 后 把 它 装 楼 了 起 来 。 


AA “hy” 


当 你 离开 6 个 月 重新 回 到 家 乡 时 ， 你 会 用 新 的 眼光 看 竺 一 切 。 当 我 
回 到 纽约 时 ， 看 到 了 纽约 地 铁 图 一 一 真正 地 看 到 它 一 一 从 我 长 大 至 今 
KAA. RAG, ACRE, AAR AI CTR 
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记得 当时 我 对 于 纽约 地 铁 图 的 看 法 刚好 是 Beck 地 图 的 反面 : 尺寸 
太 大 ， 看 起 来 杂乱 无 蔓 ， 而 且 非 常 不 直观 。 我 意识 到 这 张 地 图 在 很 多 
方面 成 为 了 使 用 我 们 伟大 的 纽约 地 铁 系 统 的 障碍 ， 这 和 伦敦 地 铁 图 刚 
好 相反 。 伦 敦 地 铁 图 的 简单 性 是 理解 和 使 用 伦敦 地 铁 的 “ 金 钥 是 ”。 


然而 ， 即 使 是 作为 一 名 设计 师 ， 即 使 曾 在 一 念 之 间 想 要 创建 自己 
的 地 铁 图 ， 我 衣 定 也 很 快 地 打消 了 这 个 念头 。 当 时 是 在 20 世 纪 70 年 
代 ， 我 不 是 那 种 拿 着 丁字 尺 的 建筑 师 。 对 于 任何 非 经 验 丰富 的 制图 员 
来 说 ， 在 那个 没有 计算 机 的 年 代 ， 承 担 这 种 任务 需要 经 过 的 训练 和 付 
出 的 时 间 都 是 不 可 想象 的 。 


在 我 的 设计 生涯 中 ,纽约 地 铁 图 的 不 足 一 直 驻 留 在 我 脑海 里 。 和 
绝 大 多 数 纽约 人 一 样 ， 我 很 少 使 用 地 铁 图 ， 也 从 来 不 市 它 。 其 部 分 原 
因 是 它 太 大 了 : 和 一 个 用 做 插页 的 公路 线路 图 一 样 大 。 万 一 我 需要 借 
助 该 地 铁 图 的 一 些 信息 去 某 个 新 的 地 方 ， 我 会 从 车 站 的 免费 地 铁 图 中 





斯 出 一 块 六 英寸 大 小 的 方形 图 ， 然 后 把 剩余 部 分 扔 到 垃圾 箱 中 ! 我 经 
常 看 到 一 些 旅 客 很 痒 否 地 携带 着 这 张 硕大 的 地 铁 图 ， 并 很 为 他 们 感到 
难过 ， 这 也 使 我 回想 起 了 自己 学 生 时 代 在 伦敦 的 美好 经 历 。 


好 的 工具 衍生 更 好 的 工具 


现在 ，“ 快 进 ” 到 多 年 后 的 某 个 晚上 ， 我 带 一 个 外 地 客户 在 市 中 
心 的 一 家 餐馆 吃饭 。 在 我 们 等 候 地 铁 时 ， 他 私下 告诉 我 纽约 地 铁 “ 吓 
W” Fibs RIR: 20 世 纪 70 年 代 到 90 年 代 的 犯罪 现在 已 经 从 地 铁 
系统 消失 了 ， 我 还 对 我 们 密 新 的 空调 车 和 清洁 的 地 铁 站 感到 自豪 。 但 
是 ， 随 着 我 们 沿 着 市 中 心 的 路 进行 交谈 ， 我 意识 到 他 的 恐惧 在 于 不 能 
理解 系统 的 复杂 性 : 所 有 的 线路 和 连接 。 那 个 时 候 ， 我 意识 到 他 的 问 
题 也 是 由 于 该 地 铁 图 设计 得 不 够 友好 的 缘故 。 这 位 客户 经 常 旅行 而 且 
文 质 彬 彬 ; 如果 他 认为 纽约 地 铁 系统 很 吓人， 那 真正 的 原因 是 该 系统 
的 地 铁 图 在 交流 上 存在 问题 。 





在 那个 时 刻 ， 这 张 地 铁 图 重新 潜入 我 的 意识 中 ， 就 再 也 没有 离 
FF 





那 是 2002 年 ， 我 有 了 上 自己 的 设计 机 构 和 员工 ， 我 们 每 个 人 的 电脑 
里 都 安装 了 当时 了 最 伟大 、 最 优雅 的 图 形 设计 工具 。 我 意识 到 在 现在 这 
个 时 期 ， 使 用 像 Adobe Illustrator 这 样 的 图 形 设计 程序 ， 只 需要 一 个 
人 就 可 以 创建 属于 他 自己 的 地 铁 图 ! 于 是 ， 我 挑战 自己 重新 设计 纽约 
地 铁 图 。 








尺寸 只 是 一 个 因素 


当 我 决定 利用 周末 试 着 动手 做 一 个 新 的 地 铁 图 时 ， 我 考虑 的 第 一 
个 问题 就 是 尺寸 。 因 为 纽约 地 铁 系 统 的 站 点 数 几乎 是 伦敦 的 两 倍 ， 我 
决定 采用 两 倍 的 伦敦 地 铁 图 的 大 小 空间 来 制作 纽约 地 铁 图 。 (即使 把 
伦 吝 地 铁 图 的 大 小 加 倍 ， 结 果 也 只 不 过 是 现 有 纽约 地 铁 图 大 小 的 五 分 
a 





首先 ， 我 采用 官方 的 城市 交通 管理 局 ( (Mtropolitan Transit 
Authority, MTA) 的 纸 质地 图 ， 如 几 5-3 所 示 ， 用 勇 刀 裁 能， 然后 以 更 有 
效 的 方式 重新 粘贴 起 来 “一 块 块 地 用 透明 胶带 粘 起 来 ) ， 只 是 为 了 看 
看 会 产生 什么 效果 。 当 我 成 功 地 裁 掉 原来 地 铁 图 的 一 半 大 小 时 ， 我 党 
得 很 受 鼓舞 。56 个 巴士 的 弹出 框 和 其 他 非 地 铁 信息 都 消失 了 ! 然后 是 
创建 一 张 实际 的 地 铁 图 这 项 繁重 的 工作 。 我 把 所 有 的 地 铁 站 名 字 和 线 
路 都 输入 到 I1llustrator 的 文档 工具 中 。 两 个 月 之 后 , Ae! 我 有 了 一 张 
自己 的 、 小 得 多 的 地 图 ! 我 把 地 图 折 对 起来， 很 轻松 地 把 它 放 到 钱包 
里 ， 带 着 它 ， 并 展示 给 所 有 的 朋友 。 他 们 对 大 小 很 满意 ， 但 是 没有 人 
真正 愿意 使 用 它 ， 因 为 它 还 存在 很 多 设计 上 的 问题 ， 使 得 它 难以 使 
用 。 



































图 5-3: MTA 纽 约 城市 地 铁 图 的 2004 版 ， 基 于 Michael Hertz 的 设计 。 
除了 其 视觉 上 的 复杂 性 ， 地 铁 图 本 身 缺 失 的 、 不 完整 的 信息 使 得 用 户 
不 得 不 依赖 于 右 下 角 复 杂 的 图 形 说 明 “〈 而 在 地 铁 里 ， 坐 在 座位 上 的 人 
们 刚好 挡住 了 这 些 信息 ) 。 但 是 ， 在 地 铁 站 ， 该 信息 展示 在 大 海报 











上 ， 也 难以 阅读 ， 因 为 它 离 地 面 的 高 度 往往 小 于 18 英 寸 〈 纽 约 城市 地 
铁 图 。 城 市 交通 管理 局 收藏 。 已 授权 使 用 ， 见 彩 图 26 ) 














减少 地 图 的 尺寸 是 一 回 事 ， 而 意识 到 展现 数据 的 方式 不 是 最 佳 方 
AMEN- HF. KERANA H: 我 该 如 何 展现 所 有 这 些 数 据 ? 





为 了 回答 这 个 问题 ， 我 需要 提出 更 多 的 问题 : 


”在 这 张 地 图 出 现 之 前 ， 痢 是 些 什么 样 的 地 图 ? 





”是 否 存在 之 前 已 废弃 而 可 能 还 具有 一 些 相关 信息 的 想法 ? 


。 以 前 难以 清晰 、 高 效 地 描述 纽约 地 铁 图 的 原因 是 什么 呢 ? 


从 回顾 到 展望 


我 做 了 深入 研究 ， 开 始 在 eBay 上 购买 老 的 交通 图 。 我 研究 了 纽约 
街道 图 ， 以 及 在 旅途 中 收集 到 的 全 世界 各 地 的 地 铁 图 和 交通 图 。 我 对 
所 有 的 设计 方案 进行 筛选， 采取 了 一 种 折 袁 方案 ， 从 已 经 实现 的 思想 
有些 非 常 精彩 ) 中 汲取 尽 可 能 多 的 想法 。 


当然 ， 除 了 George Salomon 设 计 的 地 铁 图 ， 即 我 父亲 使 用 的 那 张 
地 铁 图 ， 我 还 仔细 研究 了 Massimo Vignelli 设 计 的 地 铁 图 ( 见 图 5- 
4) ，MTA 从 1972 年 到 1979 年 一 直 使 用 该 地 铁 图 ， 而 后 来 被 Tauranac- 
Hertz MTA 地 铁 图 取代 “(30 年 后 ， 该 地 铁 图 依然 很 盛行 )。Vignelli 的 
地 铁 图 立刻 吸引 了 我 ， 因 为 它 虽然 尺寸 很 大 ， 却 显然 受到 Beck 的 伦敦 
地 铁 图 的 启发 ， 包 括 90” 和 45” 的 角度 ， 清 晰 的 站 点 连接 ， 以 及 使 用 
色彩 来 表示 各 条 线路 。 我 想 要 保留 当前 MTA 地 图 的 一 些 精髓 ， 但 是 总 体 
上 感觉 它 还 是 很 从 拙 ， 因 为 该 地 铁 图 充斥 了 太 多 的 信息 。 此 外 ， 我 还 
安 据 了 一 些 已 被 废 莽 或 被 遗 筷 的 过 去 所 做 的 努力 。 





图 5-4: Massimo Vignelli 设 计 的 1972 版 MTA 纽 约 市 地 铁 图 。 该 风格 
在 地 理 上 扭曲 得 很 混乱 ， 但 是 它 是 设计 上 的 一 个 为 人 称道 的 里 程 碑 


《1972 版 纽约 市 地 铁 图 。MTA 纽 约 市 地 铁 收藏 ， 已 授权 使 用 ， 见 彩 图 
21) 
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一 样 ， 纽 约 面临 它 目 己 独 特 的 挑战 ， 使 得 其 地 铁 系 统 无 法 使 用 图 表 方 
式 来 准确 、 清 晰 地 描绘 。 很 显然 ， 使 用 纯粹 的 地 形 图 测绘 方法 也 是 行 
不 通 的 ; 纽约 独特 的 地 理 特征 及 其 网 格 状 街道 系统 对 其 地 铁 系 统 的 给 
图 都 产生 了 影响 。 








纽约 市 地 铁 系 统 存在 4 个 显 赣 而 相互 矛盾 的 方面 ， 它 使 得 用 严格 的 
图 表 或 地 形 测绘 来 成 功 地 进行 绘图 是 不 可 能 的 。 


。 曼哈顿 岛 主干 道 的 狭窄 的 地 理 特 征 ， 包 含 17 条 独立 的 地 铁 线 
路 ， 治 着 路 6 个 市 区 的 市 中 心 同 上 和 问 下 虹 蜂 。 


。 采用 “ 明 挖 法 ”( (ct and cover) 构建 地 铁 隧道 和 高 架 线 ， 以 
符合 城市 网 格 状 的 街道 布局 。 因 为 纽约 地 铁通 党 是 沿 着 网 格 状 的 街道 
路 线 ， 地 铁 和 地 面 地 形 之 间 存 在 很 强 的 心理 链接 ， 这 在 像 伦 敦 这 样 的 
中 世纪 城市 是 不 存在 的 。 


”许多 地 铁 沿 着 当地 、 然 后 快车 、 然 后 再 当地 的 线路 运行 ， 这 是 
该 系统 的 独特 之 处 。 





。 基于 历史 原因 ， 当 前 系统 源 于 三 大 独立 而 又 相互 竞争 的 地 铁 系 
统 机 构 ( (IT、BMT 和 IND |!) ) ， 它 们 整体 上 相互 协调 得 不 好 。 (三 大 
苑 争 机 构 之 间 对 线路 的 纠缠 ， 从 曼哈顿 繁华 的 街道 到 布鲁克 林 以 及 长 
岛 ， 是 对 该 系统 进行 清晰 、 准 确 地 制图 时 所 面临 的 最 困难 的 部 分 。) 


图 5-5 所 示 的 KickMap 是 基于 我 对 很 多 早期 地 铁 图 的 选择 和 自己 的 
思想 创新 的 综合 。 我 相信 这 种 独特 的 综合 会 使 得 我 设计 的 地 铁 图 比 先 
前 绝 大 部 分 地 铁 图 更 易于 使 用 。 在 接 下 来 的 内 容 中 ， 我 将 更 详尽 地 探 
讨 在 设计 地 铁 图 时 受到 的 一 些 启发 和 创意 。 

[1] IRT(Interborough Rapid Transit). BMT (Brooklyn-Manhattan 
Transit) 和 IND (Independent Subway) 是 20 世 纪 40 年 代 三 大 地 铁 运 输 机 


构 ， 如 果 你 想 了 解 更 多 ， 请 访问 
http: //www. nycsubway. org/fag/briefhist. html. 


地 理 即 关系 





纽约 的 大 部 分 行政 区 (皇后 区 、 布 鲁 克 林 区 、 曼 哈 顿 区 ， 以 及 某 
种 程度 上 的 布衣 克 斯 区 ) 都 已 经 由 于 城市 街道 的 规划 方式 已 经 在 地 铁 
系统 上 存在 网 格 。 这 使 得 地 面 上 的 地 理 不 仅仅 是 一 个 直观 的 起 始点 ， 
而 且 也 是 用 户 体验 的 一 个 组 成 部 分 。 了 解 你 的 地 理 位 置 〈 以 第 42 街 道 
和 第 七 大 道 为 例 ) 把 你 置 于 网 格 中 ， 使 你 易于 判断 距离 和 位 置 。 这 使 
得 在 纽约 地 铁 图 中 出 现 的 很 多 地 理 错 误 〈 一 个 臭名 昭著 的 例子 是 
Vignelli 地 铁 图 把 第 50 街 道 和 百老汇 地 铁 站 放 在 第 八大 道 的 西部 ， 而 
不 是 放 在 东部 ) 非常 明显 且 易 于 发 现 。 
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的 KickMap 地 铁 图 ( 


图 5-5: 2007 年 新 版 


对 于 纽约 地 铁 图 的 一 些 早 期 版 本 ， 很 难 相 信和 那些 设计 者 曾经 作为 
日 常 的 城市 生活 真正 地 乘坐 过 地 铁 。 他 们 做 出 的 很 多 决策 和 地 铁 的 现 
实情 况 脱节 。 作 为 设计 过 程 的 一 部 分 ， 我 乘坐 地 铁 ， 去 每 个 我 不 熟悉 
FY) SE BRASIL FA o 








在 纽约 ， 地 上 交通 和 地 下 交通 之 间 存 在 很 密切 的 关系 ， 因 为 当地 
铁 乘 客 离开 地 铁 时 ， 他 们 还 需要 继续 旅途 ， 因 此 地 铁 图 尽 可 能 清晰 地 
表达 出 这 种 关系 是 很 重要 的 。 人 否则 ， 会 导致 乘客 产生 迷失 方 癌 的 不 舒 
适 之 感 。 





FEMEA A 


以 布鲁克 林 的 地 铁 L 号 线路 为 例 。 作 为 一 名 地 铁 乘 客 ， 你 在 拥挤 的 
旅途 中 ， 并 没有 真正 注意 到 地 铁 线路 沿 着 主要 街道 和 交叉 口 弯曲 或 转 
弯 。 但 是 当 你 从 格雷 厄 姆 大 街 的 地 铁 站 出 口 离开 地 铁 时 ， 很 显然 
Metropolitan 大 道 和 Bushwick 大 道 是 相交 的 两 条 主干 道 。 为 什么 这 一 
点 没有 在 地 铁 图 上 显示 ? 如 果 你 不 知道 街道 是 如 何 交 叉 ， 而 且 从 地 铁 
出 来 后 只 看 到 某 个 标识 ， 你 将 很 难 弄 清楚 究竟 发 生 了 什么 事情 。 














在 Vignelli 地 铁 图 上 ， 这 部 分 的 L 地 铁 线 被 描绘 成 一 条 直线 ， 如 图 
5-6a 所 示 。Hertz 地 铁 图 〈 见 图 5-6c) 显示 了 Metropolitan 和 Bushwick 
大 道 ， 但 是 其 地 铁 线 只 是 “敷衍 性 ”地 描 了 一 条 线 ， 看 起 来 像 一 根 弄 
湿 了 的 面条 。 我 采用 的 是 仔细 地 描绘 一 条 固定 格式 、 准 确 的 地 铁 线 ， 











标明 了 沿途 经 过 的 每 条 主 大 道 ， 相 信 这 是 最 佳 方式 ， 因 为 它 对 于 乘客 
是 最 有 帮助 的 ， 如 图 5-6b 所 示 。 





图 5-6: 布鲁克 林 的 地 铁 工 号 线路 的 一 部 分 : a) Vignelli 地 铁 图 ， 
b) KickMap 地 铁 图 ，c) Tauranac-Hertz 地 铁 图 ( 见 彩 图 29) 


相反 ， 为 了 帮助 乘客 理解 ， 我 在 制作 地 铁 图 时 ， 有 了 时 对 地 理 地 形 
风格 上 做 了 一 些 简 化 。 举 个 例子 ， 星 后 区 的 主干 道 是 旦 后 大 道 
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道 和 地 铁 的 关系 ， 这 些 地 铁 图 或 者 完全 忽略 了 它 〈 如 图 5-7a 所 示 的 
Vignelli 地 铁 图 ) 或 者 掩盖 了 它 “〈“ 如 图 5-7c 所 示 的 当前 的 MTA 地 铁 
图 ) 。 在 我 制作 的 地 铁 图 上 ， 我 把 皇后 大 道 作为 直线 ， 如 图 5-7b 所 
示 。 我 这 么 做 的 原因 是 用 户 可 以 很 容易 理解 路 线 ， 而 沿线 旅途 中 可 以 
明白 我 所 做 出 的 这 种 “折衷 ”的 意义 一 一 沿 着 一 条 地 铁 线路 乘坐 ， 然 
后 换 乘 转 到 另 一 条 地 铁 。 在 这 种 情况 下 ，7 条 地 铁 沿 着 皇后 大 道 运 行 ， 
直到 在 罗斯 福 大 道 转向 离开 ， 地 铁 R/V/G/E/F 号 线路 一 直通 向 百老汇 ， 
然后 在 东部 折 回 到 原 有 路 线 。 我 所 采取 的 展现 风格 可 以 使 用 逻辑 来 更 
好 地 表达 地 铁 和 皇后 大 道 的 关系 ， 而 在 Vignelli 地 铁 图 和 当前 的 MTA 地 
铁 图 上 ， 这 些 关 系 都 不 是 很 明显 。 











图 5-7: 沿 着 星 后 大 道 的 地 铁 线 路 在 制图 上 的 折衷 : a) Vignelli 地 
铁 图 ，b) KickMap 地 铁 图 ，c) 当前 MTA 地 铁 图 ( 见 彩 图 30) 








我 觉得 另 一 个 需要 清晰 地 显示 的 “ 折 训 ”是 曼哈顿 的 中 城 的 
第 42 街 道 ， 其 中 4/5/6 线 从 帕克 大 道 营 延 到 列 克星 敦 大 道 ， 如 图 5-8 所 
示 。 沿 着 曼哈顿 的 中 城 或 者 默 里 山 广场 步行 的 旅客 需要 知道 应 该 去 哪 
个 街道 才 有 地 铁 入 口 。Vignelli 地 铁 图 把 它 作 为 直线 ,掩盖 了 其 中 的 


变换 ， 它 依赖 文本 来 表达 道路 变换 信息 ， 而 当前 的 MTA 地 铁 图 充其量 只 
是 表意 很 不 清晰 ， 而 且 看 起 来 较 乱 。 而 在 我 所 设计 的 地 铁 图 中 ， 用 户 
应 该 去 哪里 是 很 清晰 的 。 





图 5-8: 曼哈顿 的 地 铁 4/5/6 号 线 : a) Vignelli 地 铁 图 ，b) KickMap 


地 铁 图 ，c) 当前 的 MTA 地 铁 图 ( 见 彩 图 31) 


[1] 中 城 (〈Mdtown) ， 是 美国 曼哈顿 的 中 心 区 ， 指 的 是 从 曼哈顿 的 14 
街 以 北 到 59 街 为 止 。 
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虽然 在 地 铁 图 上 显示 地 面 上 的 一 些 地 形 很 重要 ， 但 我 觉得 显示 时 
去 除 掉 一 些 地 下 信息 也 是 很 重要 的 。 在 地 铁 系 统 中 ， 有 些 地 铁 站 位 于 
地 铁 隧 道 的 交叉 点 和 重 登 点 。 显 示 这 些 交 互信 息 ， 对 于 那些 试 着 做 茶 
些 修补 的 城市 工人 或 者 公共 事业 公司 来 说 可 能 是 很 重要 ， 但 是 作为 普 
通 的 乘客 ， 它 们 只 会 带 来 视觉 干扰 。 我 试 着 通过 在 地 铁 图 上 清晰 地 对 
这 些 线 路 进行 分 离 ， 使 得 这 些 线 路 不 会 重合 ， 从 而 减少 干扰 。 以 布 明 
克 斯 的 地 铁 4 写 线 和 地 铁 5 写 线 的 不 同 插 述 为 例 ， 当 然 ，MTA 的 路 径 摘 述 
可 能 是 准确 的 ， 但 是 它们 在 显示 上 很 混乱 ， 乘 客 不 需要 真正 地 看 到 那 
些 具体 细节 来 理解 他 们 要 去 哪里 。 








对 地 铁 线 着 色 


地 下 的 地 理 地 形 特 征 很 重要 ， 但 是 使 用 户 能 够 理解 应 该 坐 哪 一 条 
地 铁 线 去 某 个 地 方 是 更 重要 的 。 


1967 年 ，MTA 改 变 了 之 前 所 采用 的 和 Salomon 和 先前 的 地 铁 图 一 样 
的 三 色 地 图 ， 开 始 使 用 不 同 的 颜色 来 表示 不 同 的 地 铁 线 。 然 而 ， 这 种 
改变 对 于 简化 系统 没有 什么 帮助 。 本 质 上 ，MTA 地 铁 图 还 是 包含 26 条 线 
路 ， 每 条 线路 使 用 随机 不 同 的 颜色 ， 使 用 一 种 颜色 表示 一 条 线路 这 种 
方法 除了 能 够 表示 给 定 线路 的 连续 性 以 外 ， 并 没有 真正 地 给 用 户 提 供 
任何 信息 。Vignelli 地 铁 图 ( 见 图 5-10c) 继续 使 用 这 种 颜色 表示 体 
系 。 





图 5-9; 地 铁 4 号 线 和 地 铁 5 号 线 : a) KickMap 地 铁 图 ，b) 当前 的 MTA 
地 铁 图 〈 见 彩 图 32 ) 


Tauranac-Hertz〈 即 当前 的 MTA) 地 铁 图 试 着 把 多 条 地 铁 线 重 又 成 
一 条 线 来 简化 系统 表示 ， 但 实际 上 它 使 得 乘客 需要 对 地 铁 系 统 的 理解 
变 得 更 加 复杂 ， 正 如 现在 你 需要 看 每 个 地 铁 站 标注 的 文本 才能 知道 某 
条 地 铁 线 是 否 在 某 个 站 点 停 下 ;， 如 图 5-10a 所 示 。 


Tauranac-Hertz 地 铁 图 的 正确 之 处 在 于 它 对 使 用 相同 地 铁轨 道 的 
一 组 地 铁 线 进行 颜色 编码 。 举 个 例子 ， 地 铁 A/C/E 写 线路 全 部 都 是 更 色 
显示 的 ， 而 地 铁 4/5/6 号 线路 全 部 都 是 绿色 显示 的 。 如 果 你 查看 从 受 哈 
顿 北 部 到 南部 的 所 有 “主干 ” 线 路 ， 颜 色 变 换 从 蓝 色 到 红色 、 杰 色 、 








黄色 、 绿 色 ， 产 生 一 种 光谱 效应 。 这 些 颜 色 易 于 记忆 ， 而 且 帮 助 乘客 
辨别 哪 一 条 地 铁 线 将 会 带 他 们 去 想 要 去 的 地 方 。 
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图 5-10: 曼哈顿 “主干 道 ”: a) 当前 的 MTA 地 铁 图 ，b) KickMap 地 
铁 图 ，c) Vignell1i 地 铁 图 ( 见 彩 图 33 ) 


在 我 设计 的 地 铁 图 中 ， 我 保留 了 这 两 种 方法 的 最 佳 方面 ， 如 图 5- 
10b 所 示 。 我 在 地 铁 图 的 主干 线 上 使 用 了 光谱 色彩 ， 突 出 Tauranac- 
Hertz 地 铁 图 系统 内 在 的 优雅 和 真实 性 ， 但 是 通过 使 用 自己 描绘 的 地 铁 
线 来 表示 每 条 线路 可 以 使 地 铁 图 保持 清晰 。 从 技术 上 来 说 ， 我 的 做 法 
和 Vignelli 地 铁 图 没有 区 别 ， 使 用 26 种 不 同 的 颜色 ， 但 是 我 把 这 些 颜 
色 分 成 6 到 7 组 颜色 系 ， 使 用 深浅 不 同 的 色调 来 表示 一 个 给 定 颜色 系 中 
的 每 一 条 线 ， 如 A/C/E 号 线路 使 用 蓝 色色 调 表示 ，4/5/6 号 线路 使 用 绿 
色色 调 表 示 等 。 





我 还 利用 了 地 铁 线路 ID 和 颜色 来 表示 地 铁 站 点 ''" 。 这 里 的 主要 
想法 是 地 铁 图 应 该 能 够 易于 扩展 ， 而 不 只 是 满足 乘客 的 可 读 性 。 在 一 
条 地 铁 线 上 停 下 的 每 个 站 点 ， 我 把 该 地 铁 站 的 名 字 放 在 圆 点 内 。 通 过 
这 种 方式 ， 用 户 可 以 很 容易 准确 地 看 到 哪个 地 铁 在 哪个 站 点 停 下 ， 而 
不 需要 去 查看 每 个 站 点 名 字 的 地 铁 线 列 表 。 使 用 不 同 的 着 色 点 能 够 使 
读者 一 目 了 然 看 清 该 地 铁 是 否 总 是 停止 在 某 处 或 者 有 特定 条 件 ， 比 如 
工作 日 /周末 或 高 峰 时 期 / 非 高 峰 时 期 的 限制 。 




















最 后 ， 纽 约 大 约 有 80 个 地 铁 站 点 ， 如 果 你 错过 了 某 个 站 点 ， 你 不 
能 仅仅 只 是 出 站 ， 再 方便 地 切换 地 铁 方 向 。 我 通过 在 地 铁 名 字 劳 边 放 
一 个 小 的 红色 方块 来 突出 地 理 位 置 ， 表 示 那 些 需 要 转向 换 乘 的 乘客 ， 
他 们 不 想 离 开 地 铁 站 ， 穿 过 街道 ， 在 街道 另 一 面 重 新 进入 站 点 。 当 前 
的 MTA 地 图 显示 了 纽约 的 所 有 直升机 机 场 ， 但 是 没有 给 乘客 提供 上 面 这 
个 简单 且 重 要 的 地 铁 信息 一 一 这 样 的 优先 显示 很 是 让 人 困惑 。 


我 相信 ， 总 体 说 来 ， 这 些 决 策 突出 了 使 KickMap 地 铁 图 比 它 之 前 的 
那些 地 铁 图 更 有 用 的 创新 点 。 


[1] : 这 是 我 在 设计 地 铁 图 中 的 一 个 突 发 灵感 。 


WI “OGG Be” WAR E 


这 些 决定 对 我 来 说 很 容易 ， 但 是 其 他 选择 则 更 困难 。 但 是 我 真正 
需要 保留 哪些 地 理 特征 ? 我 应 该 使 用 哪些 角度 ? 我 应 该 包含 多 少 公共 
汽车 和 轮渡 信息 ? 


因此 ， 在 创建 完满 足 我 初始 目标 的 构思 后 《如 图 5-5 所 示 ) ， 我 决 
定 完 善 上 自己 设计 的 地 铁 图 ， 并 体现 了 目 己 学 到 的 所 有 知识 点 。 我 感到 
Ww. 


=> 
{s 


5-11: 





ps state ll 
Pr 


Ai 


我 设计 的 测试 版 地 铁 图 ; 我 放 了 很 多 信息 在 该 版 本 地 铁 图 
中 ， 然 后 再 修改 它 〈 见 彩 图 34) 


EREA, MATIN “Winger” ( Ctst mule) 是 很 常见 
AY, “eR A Be A EAE PAE, EW BEDS AY BB A SES ER 
征 ， 该 模型 经 历 了 一 些 列 的 驱动 测试 来 确定 应 该 删除 哪些 特征 《因为 
它 不 是 基础 必须 特征 或 者 工作 不 太 理想 ) 。 我 对 自己 设计 的 地 图 使 用 
了 相同 的 “测试 又 子 ” 策 上 略 : 我 首先 创建 了 一 个 版 本 ， 如 图 5-11 所 
示 ， 把 我 可 能 想 要 的 所 有 特征 都 放 到 该 版 本 中 。Photoshop 的 
Illustrator 制 图 工具 的 图 层 特征 在 这 里 非常 有 用 ; 我 在 这 张 地 图 中 放 
置 的 很 多 东西 最 终 都 被 删 掉 或 修改 。 

















测试 版 地 铁 图 允许 我 们 评价 很 多 不 同 的 折 表 方案 ， 比 如 : 
街道 网 格 


我 想 要 在 地 铁 图 中 显示 街道 的 结构 ， 而 不 干扰 其 他 地 铁 信息 。 你 
将 注意 到 测试 版 地 铁 图 比 最 终 版 的 设计 包含 的 街道 和 街道 名 字 要 多 得 





海滩 


我 觉得 一 片 绿 色 天 地 对 于 人 们 是 重要 的 ,纽约 人 应 该 能 够 乘坐 地 
铁 去 海滩 ， 而 不 是 开车 。 我 的 测试 版 地 铁 图 还 包含 纽约 市 的 游泳 池 ， 
但 是 我 最 终 决 定 删 除 它们 。 


海 尾 线 特征 


很 重要 的 是 ， 真 正 的 用 户 《 比 如 ， 我 妈妈 ) 能 够 很 容易 地 使 用 该 
地 铁 图 ， 她 一 点 都 不 在 乎 我 在 测试 版 地 铁 图 中 特定 的 地 理 详 细 信息 
《比如 Steinway 小 溪 或 Wallabout 海 湾 ) 。 这 是 对 地 铁 图 进行 简化 和 风 
格 化 的 一 个 原因 。 但 是 我 还 希望 能 够 有 一 些 好 的 方面 ， 使 得 任何 一 个 
地 铁 图 “ 怪 才 ”或 者 纽约 爱好 者 可 以 欣赏 。 因 此 ， 有 些 地 方 我 任 由 自 
己 的 激情 驰 驴 。 我 决定 充分 利用 某 些 地 铁 的 好 的 效果 ， 因 此 我 包含 了 
像 Gowanus 运 河 这 样 的 特征 ， 其 中 Smith 9 号 街道 车 站 穿 过 该 运河 ， 在 
显示 上 必须 去 除 它 (高 达 91 英 尺 ， 是 系统 中 最 高 的 车 站 ) o 











角度 设计 





在 最 后 的 设计 中 ， 我 对 很 多 角度 都 以 标准 方式 显示 ， 但 是 为 了 显 
示 清 晰 ， 我 有 时 做 了 一 些 修改 。 我 不 拘 于 角度 的 局 限 。 标 准 化 是 件 好 
事 ， 但 是 我 的 目标 是 利用 标准 化 使 得 乘客 可 以 理解 地 面 上 的 事情 。 我 
还 决定 把 地 铁 站 点 名 字 都 放 在 水 平 线 上 ， 保 持 一 致 以 便于 阅读 ， 如 伦 
敦 地 铁 图 那样 ， 而 不 是 把 它们 塞 得 到 处 都 是 。 











桥梁 和 隧道 


我 做 这 个 项 目的 目标 之 一 是 能 够 生成 一 个 工具 ， 可 以 误 励 人 们 乘 
坐 地 铁 而 不 是 开车 。 由 于 这 个 原因 ， 我 决定 去 除 所 有 的 汽车 桥 染 和 隧 
道 ( 除 了 标志 性 的 布鲁克 林 大 桥 〉。 我 希望 乘坐 地 铁 旅 行 的 经 历 可 以 
尽 可 能 地 整洁 简单 ， 不 会 吸引 人 们 去 开车 ， 而 是 或 励 人 们 乘坐 地 铁 。 








我 设计 中 做 出 的 许多 选择 是 基于 以 下 原则 。 





用 户 HETILA 
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程度 上 ， 它 们 表示 一 些 熟 悉 的 事物 ， 地 铁 图 可 以 是 富 于 情感 的 。 因 
此 ， 我 觉得 保留 这 些 图 标 可 以 增强 地 铁 图 作为 工具 的 用 户 友 好 性 。 我 
设计 的 不 是 地 理 上 十 分 精确 的 地 形 地 图 ， 而 是 情感 和 地 理 上 相对 准确 
的 地 铁 图 一 一 曼哈顿 看 着 像 曼 哈 顿 ， 中 央 公 园 是 绿色 的 ， 哈 德 逊 河 是 
蓝 色 的 ， 而 地 铁 站 点 相互 之 间 以 及 和 街道 的 相对 位 置 都 是 准确 的 〈 比 
如 德 兰 街 在 包 厘 街 的 东部 )。 同 样 为 了 以 人 为 本 ,我 在 地 铁 图 中 包含 
了 一 些 有 名 的 标志 一 一 自由 女神 ， 爱 丽 丝 岛 雕 像 ， 布 鲁 元 林 大 桥 。 而 
且 我 不 仅仅 只 是 通过 名 字 标 签 来 显示 它们 ; 实际 上 显示 的 是 大 家 所 熟 
悉 的 它们 的 形状 ， 如 20 世 纪 30 年 代 后 期 的 地 铁 图 一 样 TC 





























Ll] : 我 原来 想 放 上 和 帝国 大厦， 但 是 它 会 影响 中 城 的 展示 ， 而 且 我 一 
直 以 来 的 目标 是 设计 一 个 真正 简单 实用 的 地 铁 图 ! 


由 小 区 组 成 的 城市 


当 我 乘坐 地 铁 去 看 望 母亲 时 ， 我 不 是 去 第 95 街 的 地 铁 站 看 她 ， 我 
征 去 她 家 里 看 望 ， 在 布鲁克 林 的 瑞 奇 湾 区 。 这 正 古 纽约 的 一 个 重要 特 
征 : 它 是 由 各 个 小 区 组 成 的 城市 ， 而 且 纽约 当地 人 一 提 到 这 座 城市 ， 
就 想 着 这 些小 区 。 这 正 是 我 们 的 参照 系 : 比如 说 ， 我 们 从 华盛顿 高 地 
区 到 瑞 奇 湾 区 。 


当前 的 MTA 地 铁 图 包含 一 些小 区 名 字 ， 但 是 和 地 铁 站 点 名 字 相 比 ， 
它们 只 不 过 是 用 深蓝 色 显 示 的 单词 ， 对 地 区 的 描述 没有 什么 价值 。 不 
存在 信息 层次 。 通 过 对 小 区 进行 颜色 编码 一 一 至 少 在 19 世 纪 40 年 代 以 
前 ， 纽 约 市 地 铁 图 就 开始 用 这 种 方式 了 一 一 以 不 显眼 的 方式 〈 采 用 和 柔 
和 的 色调 ) ， 用 白色 文本 来 显示 标签 ， 而 地 铁 站 点 名 字 是 以 黑色 文本 
显示 ， 因 此 不 会 造成 视觉 干扰 ， 通 过 这 种 方式 ， 我 能 够 在 地 铁 图 上 提 
供 多 层次 的 信息 显示 ， 而 不 影响 地 铁 图 的 清晰 和 功能 特征 。 


























同样 ， 这 些 元 素 实际 上 是 在 Illustrator 工 具 中 ， 通 过 不 同 的 数字 
图 像 层 创建 的 。 它 使 得 我 可 以 通过 不 同方 式 显 示 不 同 小 区 ， 从 而 确定 
哪些 小 区 是 真正 需要 显示 的 ， 并 制作 出 显示 不 同 小 区 名 字 的 不 同 版 本 
的 地 铁 图 。 

















一 种 尺寸 并 不 适合 所 有 场合 








我 相信 分 离 功 能 对 于 任何 有 用 的 可 视 化 或 工具 都 是 很 重要 的 。 分 
层 显 示 的 另 一 个 好 处 是 它 允 许 我 们 后 期 为 用 户 界面 定制 地 铁 图 。 
iPhone 和 ipPad 的 应 用 提供 了 KickMap 地 铁 图 ， 随 独 用 户 对 地 铁 图 进行 缩 
放 ，KickMap 地 铁 图 的 详细 信息 会 自动 变化 。 地 铁 图 除了 作为 应 用 ， 乘 
客 在 很 多 不 同 的 场景 下 也 会 查看 地 铁 图 : 有 可 折 钱 的 打印 版 ， 挂 在 地 
铁 站 的 大 幅面 版 ， 贴 在 地 铁 车 厢 上 的 (在 座位 右 后 方 ， 因 而 你 需要 从 
某 位 乘客 的 缝隙 中 查看 ) ， 以 及 贴 在 网 上 的 。 当 前 ， 你 从 每 个 地 方 得 
到 的 是 基本 相同 的 地 图 ， 但 是 实际 上 不 应 该 如 此 : 在 每 个 场合 下 ， 应 
该 有 一 个 稍微 不 同 的 版 本 ， 它 根据 当时 的 特定 环境 进行 了 优化 。 

















每 个 地 铁 图 版 本 都 应 该 有 目 己 的 设计 ， 根 据 其 所 在 的 场合 进行 定 
制 。 举 个 例子 ， 挂 在 地 铁 站 的 大 幅面 版 ， 应 该 能 够 显示 各 个 小 区 ， 但 
古 在 地 铁 车 厢 中 是 供 乘客 做 出 决策 参考 的 ， 如 和 古人 否 需要 在 下 一 个 地 铁 
站 下 车 。 因 此 ， 在 地 铁 车 厢 中 的 地 铁 图 就 不 必 提 供 所 有 的 公交 信息 
了? 





场合 也 不 仅仅 只 是 物理 上 的 。 上 晚上 11 点 以 后 ,纽约 的 26 条 地 铁 线 
减少 到 19 条 。 因 此 ， 除 了 白天 /夜间 的 KickMap 主 地 铁 图 ， 我 还 设计 了 
如 图 5-12 所 示 的 夜间 地 铁 图 。 不 是 依赖 在 图 下 角 包 含 大 量 文字 、 难 以 


阅读 的 图 形 来 说 明 的 一 张 固定 大 小 的 地 铁 图 ， 而 是 给 乘客 提供 夜间 地 
铁 图 〈 不 仅仅 是 在 iPhone 上 ， 而 且 在 地 铁 图 车 厢 上 也 提供 ) 。 











图 5-12: 只 显示 在 夜间 11 点 到 凌晨 6: 30 运 行 的 地 铁 线路 的 KickMap 
地 铁 图 夜间 版 〈 见 彩 图 35 ) 


在 设计 纽约 的 夜间 版 地 铁 图 时 ， 我 对 日 天 /夜间 版 本 地 铁 图 进行 了 
简化 ， 删 除了 大 部 分 的 街道 和 小 区 信息 ， 因 为 它们 看 起 来 很 元 余 。 此 
Sh, FRAPS Beckie BWA A IN HM, AS MER, EA 
约 的 夜间 地 铁 图 也 设计 得 很 简洁 。 


结束 语 


最 后 ， 我 确实 认为 KickMap 地 铁 图 实现 了 我 绝 大 多 数目 标 : 使 地 铁 
线 和 连接 尽 可 能 地 清晰 以 便于 得 看 ， 当 乘客 离开 地 铁 站 时 ， 提 供 清晰 
的 显示 信息 ， 以 使 他 们 能 够 知道 自己 在 哪里 ， 从 而 使 地 铁 对 所 有 人 显 
得 友好 热情 。 








然而 ， 我 的 主要 目标 是 把 我 设计 的 地 铁 图 放 到 地 铁 乘 客 手 里 。MTA 
拒绝 了 我 的 设计 后 ， 我 找到 了 画 一 种 方式 来 分 发 它 ， 通 过 Applie 的 
iTunes 一 一 为 iPhone、iPod Touch 和 iPad 提 供 两 个 应 用 程序 ， 一 个 免 
费 的 ， 一 个 付费 的 。 


我 做 出 的 所 有 选择 都 是 为 了 使 用 户 体验 尽 可 能 的 无 颖 和 愉悦 。 显 
然 ， 我 激 起 了 很 多 人 的 共鸣 ， 超 过 25 万 〈 而 且 还 在 增长 ) 的 用 户 通过 
iTunes 下 载 了 KickMap 地 铁 图 。 这 是 件 好 事 ， 但 是 我 仍然 希望 KickMap 
地 铁 图 一 一 或 者 一 些 更 好 的 地 铁 图 一 一 能 够 取代 当前 地 铁 系 统 的 地 铁 
图 。 我 希望 人 们 使 用 我 们 的 无 与 伦比 的 24 小 时 地 铁 系统 能 够 感到 舒 
心 ， 甚 至 幸福 。 地 铁 系 统 很 复杂 ， 但 是 如 果 人 们 知道 乘坐 地 铁 可 以 变 
得 多 么 简单 ，〈 如 果 地 铁 图 成 为 人 们 的 好 朋友 TRAN EBT) 地 
铁 乘 坐 量 将 会 增加 。 最 终 ， 它 不 仅仅 有 利于 地 铁 系 统 本 身 ， 而 且 有 利 
于 所 有 在 这 里 生活 、 工 作 、 参 观 和 呼吸 的 人 们 ! 








Ll] : 我 想 很 多 人 对 于 作为 纽约 伟大 象征 的 地 铁 图 充满 热情 。 地 铁 图 
显示 了 地 铁 作 为 一 种 动态 的 毛细 血管 系统 洲 洞 着 这 座 城市 。 这 不 仅 在 
人 们 的 观念 上 ， 而 且 在 历史 上 亦 是 如 此 : 建立 地 铁 是 为 了 以 低廉 的 运 
ee 并 惠及 新 的 居住 区 ， 从 而 这 座 城 市 可 以 继 
k FOR SR o 








POE 飞行 模式 : 深入 探索 Aaron 
Koblin 和 Valdean Klump 


天 空中 也 有 道路 。 虽 然 我 们 肉眼 看 不 见 它们 ， 但 是 它们 确实 是 存 
在 的 : 独特 的 、 定 义 严格 的 道路 ， 每 天 有 成 和 干 上 万 的 飞机 沿 着 这 些 道 
路 改行 。 作 为 独立 的 个 体 观察 员 ， 我 们 可 能 永远 都 无 法 猜测 出 这 些 情 
况 ， 但 是 对 原始 的 飞行 数据 所 做 的 绘图 却 为 我 们 展示 了 另 一 面 〈 见 图 
B= ly x 








“飞行 模式 ”( (Fight Patterns) 是 我 在 2005 年 开始 启动 的 一 个 
项 目 ， 它 是 对 美国 和 加 拿 大 的 民航 运输 进行 可 视 化 。 它 以 两 种 媒介 方 
式 存在 ;静态 图 像 ， 它 追踪 在 24 小 时 之 内 美国 和 加 拿 大 机 场 抵达 和 离 
开 的 飞机 ， 视 频 图 像 ， 描 述 了 和 静态 图 像 一 样 的 同一 份 数据 的 运动 状 
态 。 在 本 章 中 ， 我 将 向 你 展示 其 中 一 些 图 像 ， 并 探讨 用 于 演 染 这 些 图 
像 的 技术 。 我 还 会 分 享 一 些 想法 ， 探 讨 我 为 何 觉得 该 项 目 如 此 吸引 人 
心 ， 以 及 为 何 希望 你 也 能 有 同样 的 感受 1] 。 








图 6-1: “飞行 模式 ”， 飞 机 抵达 和 离开 美国 和 加 拿 大 机 场 时 的 飞行 
地 理 位 置 的 数据 可 视 化 〈( 见 彩 图 36) 


首先 ， 在 我 看 来 ， 这 个 可 视 化 拥有 两 个 最 为 重要 的 特征 : 第 一 个 
特征 是 所 有 飞机 往往 治 着 完全 相同 的 飞行 路 线 飞 行 。 当 我 最 开始 对 数 
据 进 行 泻 染 时 ， 我 期 望 看 到 的 是 接近 机 场 的 飞机 是 基 密 排列 组 合 在 一 
起 ， 而 且 不 同 机 场 之 间 的 飞机 分 散 度 很 高 。 但 是 ， 实 际 情 况 却 刚 好 相 
Be: 不 同 机 场 之 间 的 飞行 路 线 通 第 是 聚集 在 一 起 ， 而 只 是 在 飞机 准备 
降落 或 起 飞 的 阶段 ， 其 飞行 路 线 才 会 趋 于 分 散 〈 见 图 6-2 和 图 6-3〉。 























仔细 想 想 ， 这 是 非常 有 意思 的 。 天 空 是 无 限 属 开 的 ， 没 有 任何 自 
然 的 限制 ， 因 此 飞机 可 以 选择 任何 路 线 飞 行 。 但 是 当 查 看 “飞行 模 
式 ” 时 ， 看 起 来 就 像 是 有 张 地 图 倒挂 在 空中 ， 它 类 似 于 空中 高 速 公路 
系统 ， 不 同 目的 地 之 间 有 指定 的 路 线 。 你 甚至 可 以 给 其 他 飞机 “让 
路 ”。 





图 6-2: 图 6-1 所 示 的 “飞行 模式 ”的 部 分 特写 图 ， 说 明了 我 所 期 望 





的 通过 数据 能 够 看 到 的 : 指 问 各 个 方向 的 航线 ( 见 彩 图 37) 





为 什么 会 是 这 样 呢 ? 说 实话 ， 我 也 不 太 确 定 。 这 些 航 线 可 能 只 是 
最 高 效 的 飞行 路 线 ， 或 者 一 一 我 想 更 有 可 能 是 一 一 这 些 航线 是 由 很 多 
因素 来 决定 的 : 如 飞机 的 上 自动 要 驶 系统 、 政 府 飞行 线路 管制 、 运 营 商 
的 航道 方向 、 海 空 控 制 系统 、 在 人 口 密度 高 的 地 区 的 飞行 限制 规则 、 
风 同 气压 等 气象 因素 。 无 论 如 何 ， 我 认为 “飞行 模式 ”所 显示 的 趋势 
都 很 展 撼 人 心 ， 因 为 它 显 示 了 一 个 完全 开放 的 空间 的 逻辑 组 织 。 正 是 
由 于 这 个 原因 ， 我 选择 “模式 ”作为 这 个 项 目的 名 称 。 











“飞行 模式 ”的 第 二 个 显著 特点 是 它 使 得 我 们 能 够 对 浩瀚 的 美国 
和 加 拿 大 的 航空 系统 进行 可 视 化 。 在 我 看 来 ， 这 正 是 数据 可 视 化 的 价 
值 所 在 。 我 们 无 法 通过 查看 天 空 或 者 原始 数据 来 完全 了 解 美国 和 加 拿 
大 的 航空 体系 ， 但 是 我 们 可 以 通过 可 视 化 来 了 解 它 们 。 对 这 些 航 道统 
一 进行 可 视 化 显示 ， 它 们 所 展示 给 我 们 的 方方面面 要 超出 其 各 个 部 分 
单独 显示 的 总 和 : 这 些 可 视 化 为 我 们 展示 了 一 个 系统 ， 而 且 我 相信 这 
个 系统 是 美丽 的 。 该 系统 显示 的 不 仅仅 只 是 航道 ， 而 且 是 关于 人 类 的 
地 理 种 群 ， 更 广泛 地 说 ， 它 显示 了 我 们 人 类 所 期 望 的 旅程 。 























图 6-3: “飞行 模式 ”的 男 一 个 特写 图 ， wH TREUZ Pel AT 





面 : 清晰 、 明 亮 的 线条 表示 有 大 量 飞 机 紧密 跟 进 的 航线 〈 见 彩 图 38 ) 


“飞行 模式 ”是 使 用 编程 语言 Processing “创建 生成 的 。 
Processing 是 特别 适合 于 数据 可 视 化 的 一 种 编程 语言 。 获 取 到 飞行 数 
据 〈 这 一 步 一 直 都 是 关键 环节 ) 之 后 ， 我 写 了 一 个 简单 的 Processing 
程序 ， 把 每 个 数据 点 的 纬度 和 经 度 翻译 成 在 计算 机 屏幕 上 显示 的 二 维 
地 图 的 一 个 点 。 同 时 ， 为 每 个 点 添加 了 选择 性 的 色彩 来 表示 一 些 信 





息 ， 如 高 度 和 飞机 型 号 。 然 后 ， 我 把 这 些 图 片 以 TGA 文 件 格式 3] 导 
出 。 


对 这 些 视频 进行 可 视 化 有 些 环 手 。 如 琳 以 运动 着 的 数据 点 的 方式 
来 展示 飞机 ， 这 种 方式 无 法 展示 每 次 飞行 的 变化 。 因 此 ， 采 取 的 方法 
是 在 相 邻 的 两 个 数据 点 之 间 男 一 条 线 ， 并 在 设 定 的 时 间 间 隔 后 (3 分 钟 
或 5 分 钟 ， 取 决 于 数据 集 ) ， 在 整 张 地 图 上 增加 4% 的 黑色 不 透明 层 。 这 
意味 着 时 间 越 入 的 航道 会 随 着 时 间 的 推移 而 逐渐 消 隐 到 背景 中 ， 通 过 
这 种 方式 有 助 于 显示 飞机 的 飞行 进度 。 











“飞行 模式 ”中 使 用 的 数据 是 “行业 飞机 状态 显示 ( (Arcraft 
Situation Display to Industry, ASDI)” |“) 订阅 的 处 理 后 的 版 本 ， 
是 一 份 由 美国 联邦 航空 局 ( CFA) 发 布 的 包含 了 所 有 的 民航 记录 OO! 的 
数据 。 该 订阅 只 有 和 航空 业 有 关 的 公司 才能 获取 。 多 亏 了 同事 Scott 
Hessels， 我 获得 了 2005 年 的 28 个 小 时 的 飞行 数据 。 这 个 可 视 化 的 最 初 
版 本 是 “天 体力 学 ”项 目的 一 个 成 果 ， 这 个 工作 是 我 和 加 州 大 学 洛 杉 
矶 分 校 (ULA)“ 设 计 媒体 艺术 ”项 目的 Gabriel Dunne 一 起 合作 进行 
的 。 








我 工作 中 使 用 的 初始 数据 集 是 2005 年 3 月 19 日 到 20 日 的 飞行 数据 ， 
它 包 含 141029 次 航班 。 每 3 分 钟 取样 一 次 ， 总 共 包 含 6871383 个 数据 
点 。3 年 后 ， 即 2008 年 ， 我 和 《Wired》 和 杂志 合作 获取 到 了 另 一 份 数 





据 。 该 数据 来 源 于 2008 年 8 月 12 日 到 13 日 ， 包 含 205514 次 航班 。 每 分 钟 
取样 一 次 ， 共 包含 26552304 个 数据 点 。 


获取 到 的 数据 是 从 ASDI 订 阅 的 ， 每 个 数据 点 包括 以 下 信息 : 
。 经 度 

。 高 度 

”飞机 制造 商 

”飞机 型 号 

。 TEJER 

。 航班 号 


如 果 你 对 于 查看 一 些 具 体 数 据 感 兴趣 ， 目 前 FAA 以 XML 格式 提供 了 
一 些 ASDI 的 订阅 数据 的 样本 ， 可 以 通过 
http: //www. fly. faa. gov/ASDI/asdi. html 访 问 。 


OUl: 本 章 的 所 有 图 像 都 可 以 从 网 上 获取 高 清 图 像 ， 因 此 ， 如 果 你 对 
这 些 图 像 很 感 兴趣 ， 我 推荐 你 访问 我 的 Web 站 点 ， 可 以 查看 这 些 图 的 最 
佳 效果 : http: //www. aaronkoblin. com/work/flightpatterns/。 在 
该 站 点 ， 你 可 以 对 可 视 化 进行 缩放 ， 碍 看 长 机 高 度 、 型 号 和 制造 商 的 
彩色 显示 方式 。 你 还 可 以 查看 飞行 数据 的 动态 视频 。 

[2] 参考 http: //processing. org. 














[3] T G A, KTA R G A， 是 一 种 结构 较 简 单 的 图 像 文件 通用 格式 。 
你 可 以 访问 h t t p: //en. wikipedia. org/wiki/Truevision TGA 和 
http: //local. wasp. uwa. edu. au/~pbourke/dataformats/tga/ 了解 
更 多 信息 。 

[4] ASDI 是 通过 美国 交通 局 提供 的 数据 流 服务 。 你 可 以 访问 

http: //en. wikipedia. org/wiki/Aircr 


aft Situation Display to Industry 来 了 解 更 多 。 
15] “民用 ” 指 的 是 FAA 追 踪 的 所 有 非 军用 的 、 商 业 的 和 私人 的 航班 。 


“飞行 模式 ”没有 使 用 复 林 的 地 图 制作 技术 : 简单 地 对 数据 进行 
绘图 ， 让 数据 本 和 喘 说 话 。 然 而 ， 在 讲述 相同 的 航道 上 的 不 同 “故事 ” 
时 ,色彩 起 着 至 关 重 要 的 作用 。 图 6-4 到 图 6-9 给 出 了 一 些 例子 。 





Al 6-4: 在 这 张 地 图 中 ， 用 色彩 表示 高 度 ， 纯 白色 表示 飞机 在 地 平面 
上 《 见 彩 图 39) 





i 


Al 6-5: Atlanta 机 场 的 一 个 特写 图 ， 清 晰 地 显示 了 飞机 跑道 的 布局 








(同样 ， 色 彩 表 示 高 度 ， 见 彩 图 40) 








图 6-6: 在 该 图 中 ， 使 用 色彩 来 区 分 不 同型 号 的 飞机 《 见 彩 图 41) 








Al 6-7: 单个 型 号 的 飞机 的 地 图 ， 只 显示 了 飞机 Embraer ER J 1455 
线 的 航班 飞行 路 线 〈 见 彩 图 42 ) 








图 6-8: 男 一 个 型 号 的 飞机 的 地 图 ， 只 显示 波音 737 飞 机 的 航班 飞行 
路 线 〈 见 彩 图 43 ) 





Al 6-9: 在 这 张 地 图 上 ， 不 同 的 色彩 表示 飞机 的 起 飞 和 着 陆 : 橙色 表 
示 正 在 降落 的 飞机 ， 赣 色 表 示 正 在 起 飞 的 飞机 《〈 见 彩 图 44) 


动 问 


在 动 同 方面 ，“ 飞 行 模式 ”揭示 了 新 的 信息 ， 包 括 随 着 时 间 变 化 
的 飞行 方向 和 飞行 中 的 飞机 的 数量 。 可 视 化 夜以继日 地 追踪 着 每 个 航 
道 ， 以 便 显示 一 个 国家 如 何 进入 “梦乡 ”以 及 如 何在 翌日 “ 醒 来 ” 
〈 见 图 6-10 和 图 6-11) 。 
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图 6-10: KEF ER” WERA: 这 是 一 幅 静 态 图 像 ，2005 年 3 月 20 

日 美国 东部 标准 时 间 早 上 7: 31， 显 示 了 东海 岸 的 高 活动 性 ， 以 及 西海 

岸 的 虚拟 静态 性 (除了 从 夏威夷 起 飞 的 同 北 飞行 的 一 些 红眼 航班 ， 见 
彩 图 45) 
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图 6-11: 美国 东部 标准 时 间 下 午 4 10， 我 们 看 到 一 个 非常 不 同 的 境 
W: 此刻， 航空 最 高 峰 达 到 了 19255 架 飞机 ( 见 彩 图 46) 








在 我 的 网 站 上 有 一 个 三 维 可 视 化 视频 ， 它 描绘 了 三 维 投影 面 的 z 轴 
维度 。 为 了 在 陆地 侧面 可 以 识别 出 z 轴 ， 我 对 维度 做 了 些 夸 张 显 示 ， 这 
样 有 利于 生成 稠密 、 有 趣 的 可 视 化 。 然 而 ， 在 印刷 上 显示 的 效果 不 
好 。 感 兴趣 的 话 ， 我 推荐 上 网 看 一 下 。 


Fy: ts PFA 


和 很 多 数据 集 一 样 ， 我 在 飞行 模式 中 使 用 的 数据 包含 很 多 错误 和 
异常 ， 我 删除 了 其 中 一 些 。 举 个 例子 ， 为 了 在 数据 集中 寻找 最 快 的 航 
线 ， 我 识别 出 一 个 航班 可 以 在 6 分 钟 内 罕 过 整个 美国 一 一 这 显然 是 一 个 
错误 。 男 一 个 航班 在 穿 过 美国 时 ， 曲 曲折 折 地 沿 着 “之 ”字形 (不 可 

能 的 ) 由 北向 南 的 航线 飞行 一 一 男 一 个 明显 的 错误 。 我 把 这 两 个 航班 
的 数据 都 删除 了 。 








还 存在 一 些 其 他 异常 ， 然 而 ， 我 把 这 些 异 常 保留 了 下 来 。 举 个 例 
子 ， 北 大 西洋 的 航道 看 起 来 很 曲折 。 我 倾向 于 在 可 视 化 中 保留 这 些 数 
据 ， 因 为 显示 来 自 欧 洲 的 航班 是 很 重要 的 。 我 不 知道 为 什么 会 存在 这 
些 错 误 。 可 能 是 飞机 设备 或 者 ASDI 的 处 理 出 现 了 故障 ， 或 者 是 数据 提 
供 商 导致 的 错误 。 在 长 时 间 思 索 之 后 ， 我 决定 保留 数据 原样 。 此 外 ， 
当 碍 找 最 短 的 航班 时 ， 我 发 现 3000 多 个 航班 在 没有 离开 机 场 时 就 报告 
了 它们 的 地 理 位 置 ， 我 也 保留 了 这 些 异 党 














Al 6-12: 北大 西洋 的 飞行 线路 显示 了 数据 中 的 一 些 异 种 《〈 见 彩 图 
47) 


如 果 你 仔细 查看 该 可 视 化 ， 你 将 会 注意 到 一 些 有 趣 的 特征 。 一 个 
明显 的 例子 是 美国 内 华 达州 的 蔡 飞 区 域 ( 见 图 6-13) 。 然 而 ， 这 些 茶 
飞 区 域 看 起 来 并 没有 完全 禁 飞 : 可 以 观察 到 有 很 少量 的 航班 容 过 黑色 
AZ 














a 


图 6-13: 美国 西南 部 禁 飞 区 的 一 个 特写 ( 见 彩 图 48) 





每 当 你 处 理 大 量 的 、 有 机 的 数据 集 时 ， 你 会 发 现 数据 中 存在 错误 
和 异常 。 我 认为 去 思考 如 何 处 理 这 些 数据 是 很 重要 的 。 对 于 每 一 种 数 
据 的 处 理 ， 我 都 拉 心 自问 ， 通 过 对 数据 操纵 ， 我 是 否 会 破坏 数据 的 完 
整 性 ?如果 答 案 是 肯定 的 ， 最 好 还 是 维持 数据 本 和 喘 的 完整 性 。 对 于 存 
在 明显 错误 的 数据 ， 把 它们 全 部 删除 。 如 果 存 在 茶 些 原因 ， 使 得 你 应 
该 保留 异常 而 不 是 删除 它们 “《〈 那 应 该 调查 它们 ， 碍 找 出 其 中 隐藏 的 有 
趣 的 故事 ) 。 








“飞行 模式 ”是 一 种 简单 的 数据 可 视 化 ， 而 且 这 种 简单 性 使 得 它 
更 有 吸引 力 。 首 先 ， 该 项 目 显 示 了 空中 交通 系统 地 图 ， 据 我 所 知 ， 在 
此 之 前 它 从 未 被 公开 可 视 化 过 。 其 次 ， 可 视 化 易于 理解 ， 虽 然 它 完 
是 由 数据 生成 的 一 一 可 视 化 中 根据 机 场 创建 的 节点 与 我 们 对 北美 地 理 
特征 的 理解 保持 了 一 致 〈 见 图 6-14) 。 相 似 地 ， 正 如 我 们 所 期 望 的 那 
样 ， 最 稠密 的 航道 位 于 人 口 密度 最 高 的 地 区 。 





图 6-14: 美国 西南 部 的 一 个 特写 图 一 一 你 可 以 识别 出 几 个 机 场 呢 
( 见 彩 图 49) 





最 后 ， 我 觉得 “飞行 模式 ”之 所 以 非常 引 人 注 目 正 是 因为 它 很 寺 

舞 人 心 。 这 一 方面 可 能 是 由 于 和 地 图 关联 的 特殊 的 感情 ， 但 是 通过 显 
示 航 空 的 有 序 性 以 及 揭示 飞机 从 一 个 地 方 如 何 到 达 另 一 个 地 方 ，“ 飞 
行 模式 ”显示 了 一 个 逻辑 系统 。 而 当 我 们 坐 在 离 地 面 34000 英 尺 的 机 舱 
的 16A 位 置 时 ， 我 们 只 不 过 是 浩瀚 的 天 空中 非常 渺小 的 一 部 分 。 我 觉得 
能 够 看 到 一 个 规模 如 此 庞大 的 系统 工作 运行 如 此 良好 很 是 鼓舞 人 心 。 

在 美国 和 加 拿 大 每 天 就 有 超过 200000 个 航班 ， 我 们 真正 地 在 空中 “ 修 
路 ”， 从 出 发 地 到 目的 地 ， 每 个 航班 都 承载 了 成 干 上 万 人 ， 安 全 记录 
非常 高 。 因 此 ，“ 飞 行 模式 ”不 仅仅 是 数据 可 视 化 ， 它 也 是 对 当代 空 
中 旅行 创造 的 奇迹 的 展览 。 
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ATE ”你 的 选择 揭示 你 是 谁 : 社会 模式 的 
挖掘 和 可 视 化 Valdis Krebs 








数据 挖掘 和 数据 可 视 化 密 不 可 分 。 在 数据 中 挖掘 复杂 的 模式 并 且 
对 它 进行 可 视 化 ， 可 以 便于 人 们 利用 计算 机 的 计算 能 力 和 人 类 的 思维 
能 力 ， 对 可 视 化 有 进一步 理解 。 如 果 对 数据 挖掘 和 可 视 化 善 加 利用 ， 
它们 可 以 成 为 伟大 的 组 合 ， 能 够 催生 出 高 效 复 杂 的 数据 处 理 和 模式 识 
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在 本 章 中 ， 我 们 将 探索 一 些 数据 集 ， 挖 掘 出 隐藏 于 数据 背后 的 人 
的 行为 。 基 于 活动 出 席 率 和 对 象 选择 构造 出 的 模式 ， 将 为 我 们 了 解 人 
们 参加 活动 和 选择 对 象 的 思考 和 行为 提供 线索 。 通 常 ， 简 单 的 行为 和 
选择 就 可 以 揭示 出 我 们 是 谁 ， 以 及 我 们 像 谁 。 








早期 社交 图 


在 20 世 纪 30 年 代 ， 一 组 社会 学 家 和 种 族 学 家 做 了 一 个 很 小 的 “ 数 
据 挖 据 ” 实 验 。 他 们 的 实验 目标 是 描绘 出 美国 南部 小 城镇 的 一 组 女人 
的 社交 结构 图 。 他 们 使 用 的 数据 集 是 当地 报纸 上 公开 发 表 的 数据 。 该 
数据 集 很 小 : 18 个 女士 参加 14 个 不 同 的 社交 活动 。 


他 们 在 想 : 我 们 能 否 弄 清 这 组 女士 的 社交 结构 〔 我 们 称 之 为 社交 
图 ) ? 为 了 这 个 目标 ， 他 们 提出 了 以 下 问题 : 


” 谁 和 谁 是 朋友 ? 
”她 们 属于 哪些 社交 圈 ? 
” 谁 在 社交 图 中 起 到 了 关键 作用 ? 


识别 网 络 结构 通常 会 涉及 “攻击 性 ”的 采访 和 调查 。 是 否 有 可 能 
只 通过 检视 公共 行为 来 推导 出 网 络 结构 ? 真正 的 问题 是 ， 人们 所 做 出 
的 公开 的 选择 能 否 揭示 你 是 谁 以 及 你 像 谁 ?能够 看 透 人 类 系统 、 组 织 
和 社区 内 部 真正 的 关系 ， 是 理解 不 同 群 组 如 何 交 往 及 其 成 员 的 行为 方 
式 的 核心 。 社 区 网 络 分 析 (《〈SA) 是 当前 流行 的 一 门 社会 科学 ， 它 可 以 
用 于 市 场 营销 、 改 进 组 织 有 效 性 、 构 建 经 济 网 络 、 退 踪 疾 病 爆 发 、 换 
露 欺骗 和 腐败 、 分 析 在 线 社交 网 络 中 发 现 的 模式 以 及 干扰 勾 怖 分 子 的 
网 络 。SNA 技 术 还 可 以 揭示 “南方 女性 ”数据 集中 的 基础 网 络 结构 ， 我 
们 很 快 将 对 此 了 解 更 多 。 





SNA 在 20 世 纪 早 期 作为 社会 人 际 学 的 方式 产生 。Jacob Moreno l- 
对 他 所 在 的 学 校 的 朋友 关系 (或 称 社交 图 ) 的 绘图 在 社会 学 历史 学 家 
之 间 很 流行 ， 商 业 学 者 开始 转向 20 世 纪 早 期 对 著名 的 Hawthorne 工 厂 的 
工人 关系 [2 ， 以 及 后 期 的 “Bank Wiring Room” 员 工 间 的 交互 关系 





的 研究 。 图 7-1 说 明了 “Wiring Room” 中 员工 间 的 朋友 关系 的 连接 





图 7-1: 20 世 纪 早 期 对 员工 间 工 作 流 的 研究 的 社交 图 


SNA 把 人 类 系统 映射 成 节点 和 连接 。 节 点 通常 代表 人 ， 连 接 用 于 描 
述 人 们 之 间 的 关系 或 者 交互 的 流 。 连 接 是 有 向 的 。 如 果 节 点 只 有 一 种 
类 型 一 一 举 个 例子 ， 如 Moreno 的 朋友 关系 和 对 Hawthorne 的 “工人 ” 研 
究 中 的 节点 ， 所 有 的 节点 都 代表 人 一 一 这 种 方式 被 称 为 单 模式 分 析 。 








然而 ，“ 南 方 女性 ”研究 初始 于 一 个 稍微 复杂 一 些 的 社交 分 析 : 
双 模 式 。 有 两 种 节点 一 一 人 物 和 活动 〈 事 件 ) 一 一 连接 表示 哪些 人 参 
加 了 哪些 活动 。 图 7-2 显 示 了 包含 了 两 种 数据 模式 的 社交 图 。 左 边 的 政 
色 节 点 表示 受 研究 的 女性 ， 而 右边 的 绿色 节点 表示 参加 的 每 个 活动 。 
用 圆圈 表示 人 ， 方 框 表示 活动 。 
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图 7-2: “南方 女性 ”社交 活动 数据 集 的 双 模 式 视 图 〈 见 彩 图 50) 





该 图 可 以 得 出 不 同类 型 的 结论 ， 比 如 : 
” 3 号 女士 参加 的 活动 多 于 18 号 女士 。 


”参加 8 号 活动 的 人 数 最 多 。 





除了 这 些 简 单 的 现象 ， 双 模式 视图 很 难 揭示 出 其 他 任何 明显 的 模 
式 ， 比 如 这 些 女士 的 社交 结构 或 者 不 同 活动 之 间 的 关系 。 为 了 进行 更 
深入 地 观察 ， 我 们 使 用 一 种 流行 的 社交 网 络 分 析 技 术 : 把 节点 转换 成 
连接 ， 这 种 技术 可 以 把 双 模 式 数 据 转 换 成 单 模式 数据 。 在 第 一 次 转换 
中 ， 我 们 将 把 活动 节点 转换 成 连接 : 








X 女 十 和 Y 女 十 所 对 应 的 节点 是 连接 的 ， 因 为 她 们 都 参加 了 活动 Z。 


两 个 女士 一 起 参加 的 活动 越 多 ， 她 们 之 间 的 关联 就 越 强 。 我 们 还 
可 以 把 重点 转移 到 活动 网 络 : 


如 果 有 个 女士 C 同 时 参与 了 活动 A 和 活动 B 这 两 个 活动 ， 那 么 A 和 B 两 
个 活动 节点 之 间 将 有 一 条 连接 。 


参加 两 个 活动 的 女士 人 数 越 多 ， 则 这 两 个 活动 之 间 的 关系 就 越 
强 。 当 把 双 模 式 网 络 转 换 成 单 模式 网 络 时 ， 有 很 多 方法 可 以 计算 节点 
之 间 的 连接 的 强度 。 在 这 个 例子 中 ， 我 们 使 用 了 最 简单 的 方法 : 对 共 
现 度 求 和 。 


活动 网 络 如 图 7-3 所 示 。 两 个 活动 之 间 的 关系 越 强 ， 其 线条 越 粗 。 
也 就 是 说 ， 参 加 这 两 个 活动 的 女士 越 多 。SNA 软 件 的 网 络 组 织 方式 是 使 
用 改进 的 图 形 布局 算法 来 确定 两 个 人 之 间 的 连接 关系 : 网 络 中 一 个 市 
点 的 位 置 是 通过 它 的 连接 以 及 这 些 连 接 的 连接 决定 的 。 
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图 7-3: 基于 人 们 共同 的 参与 数 建立 起 来 的 活动 布局 图 


连接 度 较 高 的 节点 位 于 布局 图 的 中 心 ， 而 连接 度 较 低 的 节点 则 在 
图 形 的 四 周 。 因 此 ， 在 社交 日 历 表 中 ， 哪 些 活动 是 最 重要 的 可 以 一 目 
了 然 。 然 而 ， 到 目前 为 止 确实 还 没有 一 张 图 片 展示 了 我 们 最 感 兴 趣 的 
事情 : 这 个 小 城镇 的 自然 形成 的 社交 网 络 。 为 了 探索 出 这 个 网 络 ， 我 
使 用 了 “逐步 纳入 ”的 方式 ， 首 移 专注 于 结构 图 中 最 强 的 关联 ， 然 后 
逐渐 降低 立 值 来 找 出 网 络 中 的 弱 关 联 ， 人 允许 更 多 人 和 已 经 存在 于 结构 
图 中 的 人 进行 关联 。 这 种 方法 通常 忽略 数据 中 的 弱 关 联 ， 而 把 它们 作 
为 社交 网 的 噪音 数据 而 排除 掉 。 在 这 种 方式 中 ， 小 的 数据 集 上 的 弱 连 














接 的 排除 操作 必须 十 分 小 心 。 而 在 有 数 百 万 节点 和 数 百 万 种 选择 的 数 
据 集 中 ， 调 整 社交 品 首 数据 的 条 形 图 往往 就 不 需要 十 分 精确 。 





采用 五 分 制 ，5 表 示 两 个 节点 之 间 的 连接 最 强 ，1 表 示 最 弱 ， 开 始 
使 用 逐步 纳入 的 方法 ， 从 强度 =5 的 连接 开始 。 换 句 话 说， 识别 出 参加 
活动 最 多 的 女性 。 图 7-4 说 明了 基于 活动 出 席 率 的 最 强 连 接 。 

















我 马上 就 看 到 了 两 个 聚 类 : 一 个 聚 类 包含 了 1 号 、2 号 、3 号 和 4 号 
的 女士 ， 另 一 个 聚 类 则 包含 12 号 、13 号 和 15 号 的 女士 。 我 使 用 两 种 不 
同 的 颜色 对 节点 进行 着 色 ， 从 而 区 分 开 每 个 聚 类 分 组 的 成 员 。 








接 下 来 ， 包 含 下 一 强度 级 别 的 连接 : 强度 =4 的 连接 。 其 结果 是 
个 聚 类 内 部 各 目 增加 了 一 些 新 的 节点 ， 但 是 不 存在 能 够 将 两 个 聚 类 连 
接 起 来 的 节点 。 如 图 7-5 所 示 的 ， 我 们 还 是 只 有 两 个 完全 独立 的 分 组 。 


> 
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7-4: 基于 同一 活动 出 席 率 的 女士 之 间 最 强 关 联 ( 见 彩 图 51) 








图 7-5: 参加 相同 的 社交 活动 的 女士 之 间 强 度 最 高 的 两 级 连接 〈 见 彩 
图 52 ) 





包含 强度 =3 的 连接 之 后 ， 显 示 出 将 两 个 分 组 桥接 在 一 起 的 连接 ， 
如 图 7-6 所 示 。 以 下 情况 在 绝 大 多 数 的 社交 结构 图 中 是 很 常见 的 : 强度 
最 大 连接 出 现在 一 个 分 组 内 部 ， 而 强度 较 弱 、 频 率 较 低 的 连接 出 现在 
两 个 分 组 之 间 。 在 每 个 分 组 内 部 还 存在 一 些 强度 更 弱 的 连接 ， 说 明 在 
一 个 给 定 分 组 内 ， 不 是 所 有 的 人 都 和 这 个 组 的 所 有 节点 都 有 强 连接 。 
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图 7-6: 通过 对 弱 连 接 “ 逐 步 纳 入 ”进行 桥接 的 两 个 分 组 〈 见 彩 图 
53) 


我 们 的 社交 结构 依然 缺乏 一 些 节 点 : 164. ITS AIS SEL. E 
用 逐步 纳入 算法 ， 这 些 节 点 不 满足 之 前 给 出 的 任何 纳入 标准 。 或 许 这 3 
位 女士 是 城镇 中 新 来 的 ， 或 许 是 她 们 较 不 善于 社交 ， 参 加 的 活动 较 
少 ， 导 致 确定 她 们 的 关系 更 复杂 。 当 我 把 立 值 降低 到 强度 =2 的 连接 
时 ， 这 3 位 女士 也 被 连接 到 社交 网 络 中 。 现 在 ， 所 有 人 都 连接 到 了 网 络 
中 ， 而 最 初 的 两 个 聚 类 结构 还 保留 着 。16 号 女士 是 唯一 的 不 能 明显 归 








属于 某 一 个 聚 类 的 节点 ， 她 对 两 个 聚 类 的 连接 都 同样 不 频繁 。 因 此 ， 
我 把 她 归于 不 属于 任何 一 个 聚 类 ， 用 紧 色 表示 。 最 终 的 自然 社交 网 络 
图 如 图 7-7 所 示 。 
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图 7-7: 基于 在 社交 活动 中 共同 的 出 席 情况 建立 起 来 的 女士 社交 图 
( 见 彩 图 54) 


基于 当地 社交 活动 的 出 席 率 ， 所 有 18 个 女士 都 已 经 被 相应 地 置 于 
社交 网 络 中 。 该 社交 网 络 揭示 了 和 该 小 镇 相关 的 社交 结构 的 一 些 有 趣 
的 方面 : 





。 存 在 两 个 显著 不 同 的 社交 聚 类 。 


© 两 个 聚 类 之 间 征 连接 的 。 社 交 重 登 说 明了 两 个 聚 类 之 间 的 兴趣 
和 关系 存在 一 些 可 能 的 共同 性 。 
”产生 各 种 不 同 的 网 络 角色 。 有 些 女士 起 着 连接 作用 ， 对 两 个 聚 


类 有 桥接 作用 ， 而 其 他 女士 则 表现 为 是 聚 类 内 部 的 核心 成 员 ， 只 和 组 
内 的 成 员 有 关联 。 





如 图 7-7 所 示 的 社交 图 可 以 用 于 市 场 营销 或 者 口头 传播 活动 。 在 该 
简单 的 例子 中 ， 除 了 可 以 收集 到 给 出 的 这 些 信息 之 外 ， 通 常 可 以 收集 
到 更 多 的 信息 ， 但 是 仅仅 从 这 些 仅 有 数据 中 我 们 依然 能 够 推导 出 一 些 
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6 号 女士 可 能 不 会 受到 12 号 女士 的 言谈 举止 的 影响 。 





”4 号 女士 可 能 在 复 色 聚 类 内 有 最 高 的 内 部 影响 。 她 可 能 增强 了 其 
所 在 分 组 内 的 当前 每 个 成 员 之 间 的 关联 强度 。 


” 监 色 分 组 的 9 号 女士 是 “ 务 合剂”， 即 对 两 个 分 组 起 桥接 作用 ， 
而 且 可 能 给 分 组 带 来 新 的 思想 和 观点 。 她 至 少 和 分 组 内 的 一 个 成 员 (4 


号 女士 ) 有 很 强 的 关联 ， 而 3 号 女士 在 其 所 在 的 分 组 内 又 起 着 重要 作 
用 ， 这 对 于 9 号 女士 很 有 好 处 。 给 一 个 分 组 带 来 想法 的 人 通常 需要 至 少 
有 一 个 在 分 组 内 起 着 关键 作用 的 同盟 。 














e 16 号 、17 号 和 18 号 女士 可 能 是 小 镇 新 来 的 ， 或 者 不 是 “条 合 
Fl” o 她们 可 能 知道 分 组 内 发 生 的 事情 ， 但 是 她 们 可 能 不 清楚 分 组 内 
部 真正 的 私密 信息 ， 因 为 她 们 和 各 个 分 组 的 连接 都 很 弱 。 


不 同 的 数据 挖掘 算法 通常 会 产生 不 同 的 结果 ， 即 使 是 对 于 如 上 所 
述 的 小 的 数据 集 。 在 过 去 几 年 ， 不 同 的 社会 学 家 和 网 络 科 学 家 重新 检 
视 了 这 个 有 趣 的 小 数据 集 ， 应 用 新 数据 集 来 查看 出 现 了 什么 模式 。 图 
7-8 显 示 了 21 个 最 流行 的 研究 结果 。 我 们 的 结果 和 13 号 Linton Freeman 
的 研究 结果 相 匹配 ( (Feeman 2003) : 1 号 一 9 号 的 女士 在 一 个 分 组 ， 
10 号 一 15 号 和 17 号 、18 号 的 女士 在 另 一 个 分 组 ，16 号 女士 同时 属于 两 
个 分 组 。Freeman 在 建立 社交 网 络 分 析 ( CFeeman 2004) 中 起 到 了 关键 
作用 ， 而 且 在 建立 一 些 早 期 的 网 络 衡量 标准 上 所 在 的 工作 尤其 重要 ， 


这 些 标准 至 今 还 很 流行 ( (Feeman 1979) 。 























1 2 3 4 5 6 7 8 9 0 1% 12 13: 4 G 1 T R 
1 DGG41 WW WWW WwW WwW W WWW WW WW WwW WwW WwW W 
2 HOMS0 Ww W WWW W W WW wwwww WwW WwW Ww 
3 P&C72 WNW W WwW W W WWW W W W W WwW W W WG WwW 
4 BGR74 W W W W Www WwW WwW W wwww w WwW 
6 BBA7S W W WWW W W W WW W WwW W WwW WwW WS WS WwW 
6 BCH78 W W WWW WwW wwwww Ww 
7 DOR79 W W W WwW W W W wwwwww ww 
8 BCH91 W WWWWWW WW WwW WG WwW W WwW WwW W W WwW 
9 FRES2 WWWWW W w wowwwoiww we ww 
10 ES&B93 W WWW WwW WwW w wwwwoeiwww WwW 
11 FR193 W W WWW W W W W W W W WwW W WwW WwW WwW W 
EPE) é i i A $ A a à Ô A a à a Ô 4 Ò Q 0 
14 FW293 W W WW WwW W WwW www WwW WwW WW W W 
15 BE197 W W W WWW WwW wwwwwiw WwW 
16 BE297 W W WwWWWWWWWWW WW WwW Ww WwW WwW Ww 
17 BEST W W W WW W W WW W W W W WW W WwW WG WwW 
18 S&F99 W W WW W W W WwW W WwW WwW WwW WwW Ww WwW WwW WwW 
19 ROBOO W W W W W W W W WW WW WwW WwW WwW WwW WwW Ww W 
20 OSB00 W W W W WÒ WÒ W WW WW W WW WW WwW WwW WwW WwW 
21 NEWO1 W WWWWWWWWW WW WW W WwW W W 











图 7-8: 网 络 科 学 家 对 “南方 女性 ”社交 活动 数据 集 的 研究 结果 
( (Feeman 2003， 见 彩 图 55) 大 多 数 的 研究 得 出 的 结论 都 是 很 一 致 
的 ， 所 有 的 研究 都 发 现 数据 中 有 两 个 很 不 同 的 聚 类 。 然 而 ， 对 于 哪些 
成 员 属于 哪个 分 组 并 不 是 完全 一 致 ， 尤 其 是 8 号 一 18 号 的 女性 。 该 表 可 
以 很 好 地 显示 成 员 分 组 ， 但 是 它 无 法 揭示 网 络 角色 和 社交 距离 。 图 7-7 
所 示 的 社交 图 确实 清晰 地 显示 了 社交 结构 的 细微 差别 ， 显 示 了 网 络 中 
的 失败 点 一 一 也 就 是 说 最 可 能 发 生 故 障 的 点 。 举 个 例子 ， 如 果 把 3 号 女 
性 移 开 ， 网 络 将 会 有 很 大 变化 。 查 看 4 号 女性 和 9 号 女性 对 于 3 号 女性 的 


离开 将 会 如 何 反应 会 很 有 意思 。 

[1] JacobMoreno 是 一 名 社会 科学 家 ， 他 是 心理 疗法 的 创始 人 。 更 多 详 
UL: http: //en. wikipedia. org/wiki/Jacob L. Moreno. 

[2] 年 至 1932 年 ， 人 们 对 Hawthorne 的 工人 进行 研究 ， 发 现 了 工业 管理 
上 的 堆 桑 效应 ( (Hwthorne effect)， 即 工人 等 会 因 受 到 研究 人 员 的 关 
注 而 增加 产量 或 提高 成 绩 。 





























Amazon 的 书籍 购买 数据 的 社交 图 





Amazon. com 人 允许 用 户 轻松 容易 地 访问 网 站 以 获取 经 过 汇总 的 购买 
数据 (对 交易 数据 进行 聚集 ， 防 止 对 个 人 信息 的 识别 )。Amazon 提 供 
的 书籍 购买 数据 形成 了 和 图 7-3 的 活动 网 络 类 似 的 网 络 数据 集 。 在 
Amazon 网 站 ， 人 们 不 是 参与 相同 的 社交 活动 ， 而 是 通过 购买 相同 的 书 
籍 而 相互 关联 。 在 这 两 种 情况 下 ， 人 们 被 关联 在 一 起 的 原因 都 是 因为 
有 些 人 和 另 一 些 人 做 出 了 相同 的 选择 。 











在 每 个 商品 页 面 ，Amazon 都 提供 以 下 信息 : 


“购买 该 商品 的 顾客 还 购买 了 ……” 








当 人 们 购买 两 个 商品 时 ， 在 这 些 商 品 之 间 就 形成 了 关联 。 人 们 购 
买 相 同 的 商品 越 多 ， 这 些 商品 之 间 的 关联 就 越 强 ， 同 时 购买 相同 商品 
的 概率 也 就 越 大 。 虽 然 通 常情 况 下 是 用 节点 来 表示 人 ， 但 是 在 这 个 
例 中 ，Amazon 的 顾客 是 用 网 络 中 的 连接 表示 ， 而 他 们 购买 的 商品 是 用 
节点 表示 。 因 此 ，Amazon 能 够 生成 一 个 网 络 ， 可 以 提供 其 顾客 选择 和 
偏好 的 显著 信息 ， 而 不 会 暴露 关于 顾客 的 任何 个 人 数据 。 该 网 络 揭示 
了 顾客 的 偏好 模式 ， 同 时 还 保留 了 其 隐私 性 。 只 需要 很 少 的 数据 挖掘 
和 一 些 数据 可 视 化 ， 我 们 就 可 以 对 Amazon 的 顾客 的 习惯 和 选择 有 很 深 
的 了 解 。 














确定 特定 书籍 关联 的 网 络 


人 类 网 络 的 一 个 最 基本 的 规则 是 “ 物 以 类 聚 ， 人 以 群 分 ”。 朋 友 
的 朋友 变 成 朋友 ， 同 事 的 同事 成 为 同事 。 在 整个 社交 圈 产 生 了 连接 的 
紧密 聚集 。 对 于 可 视 化 的 社交 网 络 ， 我 们 发 现 其 中 存在 “ 物 以 类 聚 
人 以 群 分 ”的 情况 。 











我 们 一 起 来 查看 Amazon 上 一 本 流行 的 计算 机 书籍 : Toby Segaran 
和 Jeff Hammerbacher 的 《数据 之 美 》。 除 了 其 他 信息 ， 该 书 的 Amazon 
网 页 提供 了 书籍 描述 、 出 版 详细 信息 和 “同时 也 购买 了 ”书籍 的 清 
单 。 这 个 清单 给 我 们 提供 了 关于 该 书 的 哪些 信息 ?作为 一 个 网 络 方面 
专业 的 学 生 ， 我 对 该 书 的 好 奇 不 仅仅 在 于 该 页 面 的 “同时 也 购买 了 ?” 
的 清单 “作为 网 络 中 的 第 一 层 子 节点 ) 。 我 想 知 道 如 果 我 点 击 清单 中 
给 出 的 每 个 书籍 的 链接 ， 并 将 新 页 面 中 的 “同时 也 购买 了 ”的 书籍 链 
接 添加 到 一 个 网 络 中 ， 将 会 发 生 什 么 情况 《作为 网 络 中 的 第 一 层 和 第 
二 层 子 节点 ) © 











对 网 络 的 动态 性 的 了 解 关键 在 于 能 够 感知 到 围绕 这 个 单个 节点 的 
连接 所 具有 的 关联 模式 ， 或 者 是 在 一 个 具有 相同 兴趣 的 社区 内 部 或 者 
周围 的 关联 模式 。 我 希望 能 够 弄 清 我 的 书籍 的 兴趣 点 所 产生 的 关联 网 
络 。 了 解 这 些 关 联 可 以 对 网 上 邻居 “〈 围 经 该 书 的 网 络 ) 有 深入 的 理 
解 ， 它 可 以 帮助 顾客 做 出 更 明智 的 选择 。 








当 研 究 自学 习 网 络 时 ， 从 焦点 节点 向 外 扩散 奶 躁 网 络 中 的 两 层 节 
点 是 社交 网 络 分 析 的 一 个 通用 步骤 。 自 学 习 网 络 多 许 人 们 碍 看 谁 是 他 
们 的 网 上 邻居 ， 他 们 是 如 何 相 互 关联 以 及 该 结构 可 能 如 何 影响 到 人 人们 
自身 一 一 焦点 节点 。 


当 我 收集 了 《数据 之 美 》 的 “同时 也 购买 了 ”的 书籍 列表 ， 我 在 
思考 : 


”在 书籍 以 及 书籍 和 书籍 之 间 的 关联 中 ， 我 能 够 发 现 什 么 主题 ? 


《数据 之 美 》 这 本 书 的 读者 还 对 其 他 什么 主题 感 兴趣 ? 





《数据 之 美 》 最 终 是 否 可 能 成 为 庞大 的 、 广 泛 关联 的 聚 类 的 中 
心 ， 或 者 成 为 一 个 具有 其 中 某 种 兴趣 的 一 个 独特 的 社区 的 一 部 分 ? 








图 7-9 显 示 了 与 《数据 之 美 》 这 本 书 相 关 的 书籍 所 连接 起 来 的 网 
络 。 每 个 节点 表示 顾客 在 Amazon 上 购买 的 一 本 书 。 通 过 一 条 灰色 线条 
把 顾客 所 购买 的 书籍 连接 在 一 起 ， 其 中 箭头 指向 “同时 也 购买 了 ”的 
书籍 。 红 色 节 点 表示 0 Reilly 出 版 社 出 版 的 其 他 书籍 ， 而 黄色 节点 表 
示 其 他 出 版 社 出 版 的 书籍 。 


在 这 个 网 络 中 ， 一 本 书 的 优势 不 在 于 其 拥有 的 关联 的 数量 ， 而 在 
这 些 关 联 的 指向 。 网 络 的 黄金 规则 和 房地产 是 相同 的 位 置 、 位 








置 、 还 是 位 置 。 在 房地产 ， 真 正 重要 的 是 物理 位 置 : 地 理 位 置 。 在 网 
络 中 ， 则 是 虚拟 位 置 ， 由 围绕 节点 的 连接 模式 决定 。 


图 7-9 的 节点 通过 连接 到 “同时 也 购买 了 ”的 书籍 ， 在 图 形 空 间 中 
具有 了 自 组 织 性 。 这 种 特性 使 得 相似 的 书籍 可 以 自 组 织 在 一 起 形成 相 
似 主题 的 聚 类 ， 它 揭示 了 在 这 些 书籍 聚 类 背后 的 兴趣 社区 。 在 图 7-9 
中 ， 两 个 分 组 很 明显 地 通过 主题 紧密 关联 : 





”图 的 右 下 角 分 组 都 是 关于 程序 员 和 编程 。 
”图 上 方 的 分 组 是 关于 语义 Web。 


里 然 图 7-9 中 出 现 了 聚 类 ， 但 是 这 些 聚 类 没有 我 们 将 要 看 到 的 聚 类 
那么 明显 ， 这 些 聚 类 之 间 相 互 混合 、 交 个 ， 尤 其 是 那些 关于 现代 编程 
方法 和 过 程 的 书籍 。 


在 图 7-9 中 ， 除 了 相似 主题 的 聚 类 ， 还 存在 关于 出 版 社 的 聚 类 ， 由 
彩色 节点 表示 : 红色 书籍 连接 到 其 他 红色 书籍 ， 黄 色 书 籍 连接 到 其 他 
黄色 书籍 。 这 意味 着 喜欢 0 Reilly 出 版 社 书籍 的 人 们 倾向 于 购买 0 了 
eilly 出 版 社 的 书籍 。 在 节点 尺寸 上 ， 大 小 相似 的 节点 形成 弱 连 接 模 
式 。 尺 寸 大 的 市 点 ， 在 图 表 中 不 受 局 部 影响 ， 连 接 到 其 他 尺寸 大 的 节 
护 ， 而 中 等 大 小 尺寸 和 小 尺寸 的 节点 通常 相互 连接 。 这 是 我 们 在 人 类 
网 络 中 经 常 看 到 的 一 种 模式 一 一 “ 物 以 类 聚 ， 人 以 群 分 ”。 虽 然 我 们 
看 到 的 模式 并 不 是 Internet 的 物理 结构 ， 但 是 很 多 小 的 节点 连接 到 一 








些 大 的 节点 上 ， 生 成 一 个 明显 的 星 形 模式 。 人 们 通常 把 该 模式 称 之 为 
无 尺度 网 络 ( (sale-free network)。 
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图 7-9: 《数据 之 美 》 一 书 的 “网 上 邻居 ”《 见 彩 图 56 ) 


为 了 查看 哪个 节点 在 连接 网 络 中 的 位 置 良 好 ， 我 检查 了 
每 个 节点 /书籍 的 网 络 度量 。 因 为 这 是 一 个 有 向 网 络 ， 和 万 维 网 很 相 
似 ， 我 采用 类 似 Google 的 PageRank 来 计算 影响 指标 。 这 些 指 标 是 通过 
同时 使 用 每 个 节点 的 有 向 和 无 向 连接 来 计算 的 。 正 如 在 Webp 上 ， 连 接 更 
重要 的 节点 产生 的 影响 也 越 大 。 这 些 衡 量 尺度 并 不 能 说 明 销售 量 或 者 
数量 所 能 表达 的 流行 度 : 相反 地 ， 它 们 表达 的 是 成 于 上 万 的 Amazon 顾 








客 的 同感 一 一 “ 物 以 类 聚 ”的 书 是 哪些 。 基 于 “同时 也 购买 了 ”的 模 
式 的 兴趣 社区 中 ， 贡 点 越 大 ， 其 在 社区 中 的 影响 力也 越 大 。 


另 一 种 常见 的 网 络 测量 方式 是 “结构 等 价 性 ”。 这 种 测量 措施 揭 
示 了 哪个 节点 在 网 络 中 发 挥 了 相似 的 作用 。 等 价 的 节点 在 网 络 中 可 能 
是 相互 可 取代 的 。 作 为 一 个 作者 ， 我 不 希望 自己 的 书 能 够 被 很 多 其 他 
书籍 所 蔡 代 。 然 而 ， 作 为 一 名 读者 ， 我 襄 欢 有 多 种 选择 。 在 图 7-9 中 ， 
和 《数据 之 美 》 一 书 的 连接 模式 最 相近 的 两 本 书籍 是 《 云 计 算 架 构 》 
( (Coud Application Architectures) 和 《Programming the 


Semantic Web) . 


Amazon 提 供 的 妨 一 个 增值 服务 是 用 户 提 交 的 书评 。 考 虑 购买 特定 
书籍 的 读者 可 能 会 从 其 他 读者 提交 的 很 多 书评 中 受益 。 遗 憾 的 是 ， 这 
些 书评 可 能 分 布 很 不 均衡 : 一 个 拥有 庞大 的 个 人 社交 网 络 的 作者 ， 其 
在 Amazon 上 的 最 新 著作 能 够 快速 得 到 几 十 个 甚至 更 多 的 书评 ， 而 不 受 
欢迎 的 作者 可 能 刚好 相反 。 因 此 ， 仅 仅 基于 读者 的 评价 来 购书 可 能 会 
产生 误导 作用 。 





一 本 书 的 网 络 图 比 起 读者 的 个 别 书评 可 能 更 能 说 明 应 该 购买 哪些 
其 他 书籍 。 连 接 到 很 多 其 他 相似 书籍 的 书 能 够 揭示 出 花 钱 购买 这 些 书 
的 读者 的 很 多 客观 性 选择 。 当 然 ， 购 买 这 种 行为 不 是 随机 的 ， 它 是 基 
于 思考 和 比较 所 做 出 的 决定 。 做 出 购买 决定 就 是 最 佳 的 评论 ， 即 使 它 
没有 写 一 个 字 书 评 。 





我 给 出 的 书籍 网 络 图 是 为 了 消除 网 络 中 的 不 相关 的 节点 而 设计 的 
《 即 连接 度 很 低 的 节点 ) 。 图 7-9 所 示 的 网 络 图 显示 了 “3 核 网 络 ”， 
其 中 每 个 节点 的 连接 度 至 少 为 3 的 网 络 。 为 了 达到 这 个 目标 ， 所 有 入 度 
=1 或 入 度 =2 的 连接 都 被 删除 。 这 些 市 点 生成 了 其 他 兴趣 社区 ， 它 们 表 
示 新 书 或 者 非常 老 的 书籍 ， 或 者 包含 “3 核 网 络 ” 社 区 中 很 少 的 “同时 
也 购买 了 ”的 连接 。 








把 结果 付 诸 实践 


SK He iH 


这 些 兴趣 社区 地 图 通过 其 他 消费 商品 也 可 以 在 相似 的 范围 内 工 
作 。 如 果 我 对 一 项 产品 、 一 位 作者 、 一 名 艺术 家 、 一 个 年 份 、 一 个 吕 


DHR 


k AE SB A MAR, REER 
它 的 “网 络 邻居 ”来 判断 。 以 下 是 需要 问 的 关于 


题 : 


通过 其 “同伴 ”一 一 
该 节 


点 的 一 些 相关 问 





”什么 节点 指 问 该 节点 ? 
” 它 属于 哪个 社区 ? 
” 它 在 社区 中 起 核心 作用 吗 ? 


” 它 在 社区 中 起 桥梁 作用 吗 ? 


看 起 来 ， 作 为 Amazon 的 顾客 ， 我 可 以 通过 查看 页 面 中 藤 入 的 信息 
来 做 出 更 明智 的 决定 一 一 网 络 内 部 的 “上 下 文 ” 一 一 Amazon 销 售 的 不 
同 的 兴趣 社区 的 各 种 商品 
(iTunes, 


。 其 他 厂商 ， 比 如 Netflix 公 司 和 Apple 公 司 
能 在 推荐 一 部 电影 或 者 一 首 新 歌 或 者 一 名 新 艺术 家 之 前 
也 做 类 似 的 分 析 。 通 过 收集 成 千 上 万 的 顾客 信息 以 及 他 们 所 做 出 的 选 
择 信息 ， 把 这 些 信息 组 织 起 来 ， 卖 家 就 可 以 形成 如 图 7-9 所 示 的 “ 产 








品 -产品 ”的 网 络 ， 甚 至 类 似 图 7-7 所 示 的 “人 -人 ”网 络 。 这 两 张 映 射 
图 都 表示 了 可 能 的 影响 模式 ， 以 及 对 顾客 做 出 “购买 /出 租 / 下 载 ” 的 





以 下 是 我 们 根据 Amazon 分 析 提 取 的 一 些 网 络 经 验 规 则 : 





如 条 有 两 本 结构 相同 的 非 小 说 类 书籍 ， 你 阅读 了 其 中 一 本 后 ， 可 
能 不 会 急于 阅读 第 。 二 本 ， 因 为 第 二 本 书 所 履 盖 的 信息 很 可 能 和 第 一 
本 书 相 同 。 男 一 方面 ， 对 于 小 说 类 书籍 ， 你 可 能 希望 阅读 大 量 的 结构 
相同 的 这 类 书籍 (对 于 这 些 网 络 “ 惊 片 ”总 是 乐此不疲 ! ) 








。 如 果 你 喜欢 A、B 和 (三 本 书 ， 想 读 一 些 类 似 的 书籍 并 找到 哪些 书 
籍 同时 连接 到 A、B 和 C。 你 只 能 通过 网 络 图 看 到 这 些 连 接 ;， 无 法 在 
Amazon 的 单个 列表 中 看 到 它们 ， 除 非 你 打开 3 个 浏览 器 窗口 ， 并 且 上 自己 
比较 这 些 列表 。 





。 如 果 你 想 阅 读 一 本 关于 主题 X 的 书籍 ， 找 到 在 主题 X 的 书籍 聚 类 
中 ， 网 络 影响 分 值 最 高 的 书籍 。 这 遵循 Google 的 PageRank 方 法 ， 而 且 
可 能 找到 一 本 口 口 相传 、 优 秀 的 书籍 。 


”如果 你 想 要 查找 的 书籍 没有 现货 ， 那 么 可 以 找到 一 本 和 该 书 结 
构 相 同 的 其 他 书籍 。 这 些 书 将 提供 相似 的 内 容 ， 而 且 可 能 是 有 货 的 。 


一 本 书 的 作者 和 /或 评论 员 可 以 用 目 己 已 有 的 书籍 网 络 知识 把 一 本 
书 放 到 网 络 中 的 茶 个 空 隐 中 。 出 版 商 可 以 对 不 断 变化 的 书籍 网 络 进行 
评审 ， 这 些 书 籍 网 络 可 能 会 周期 性 变化 来 适应 市 场 。 当 然 ，Amazon 依 
然 是 一 个 大 顾家 : 它 拥有 所 有 的 数据 ， 以 及 目前 尚未 利用 的 对 数据 进 
行 分 析 和 发 现 所 开发 的 丰富 的 应 用 。 











政治 书籍 的 社交 网 络 





对 Amazon 的 书籍 网 络 进行 可 视 化 不 仅 可 以 帮助 我 们 选择 购买 哪些 
书籍 ， 而 且 还 为 我 们 在 特定 兴趣 领域 内 提供 对 更 深远 的 趋势 的 深刻 洞 
察 。 其 中 一 个 成 熟 的 、 值 得 探索 的 领域 是 政治 。Amazon 的 购买 模式 往 
往 反 映 了 全 国 范围 的 政治 信仰 和 选择 的 调查 结果 。 


如 果 Amazon 报 告 相同 的 顾客 经 常 购买 两 本 书 ， 那 这 两 本 书 就 是 有 
关联 的 。 在 通过 我 的 社交 网 络 分 析 软 件 InFlow 3.1. 0°! 对 “同时 也 购 
买 了 ”的 数据 进行 填充 之 前 ， 我 不 会 对 节点 进行 排列 或 着 色 。InFlow 
软件 包含 一 个 算法 ， 能 够 基于 每 个 节点 的 连接 对 节点 的 布局 进行 排 
列 。 一 旦 该 软件 找到 某 种 新 兴 模 式 ， 识 别 出 任 何 聚 类 ， 我 就 会 对 每 个 
聚 类 的 书籍 进行 审查 ， 然 后 观察 这 些 书籍 是 否 会 自然 地 聚集 成 蓝 色 、 
红色 或 紫色 〈 该 着 色 方 案 遵从 2000 年 美国 总 统 竞 选 时 期 流行 的 “红色 
表示 保守 派 ”、“ 蓝 色 表 示 自 由 派 ”的 习惯 风格 ;紫色 是 红色 和 蓝 色 
的 组 合 ， 常 常用 于 描述 落 在 这 两 个 “派别 ”之 间 的 书籍 ) 。 





从 2003 年 开始 我 就 一 直 从 事 政治 书籍 的 购买 模式 的 社交 网 络 分 
析 。 不 出 所 料 ， 从 第 一 次 映射 ， 我 就 发 现 两 个 很 不 相同 的 政治 聚 类 ; 
红色 表示 那些 阅读 了 右倾 书籍 的 ， 而 赣 色 表示 那些 阅读 了 左倾 书籍 
的 。 在 2003 年 所 做 的 网 络 分 析 中 ， 我 发 现 只 有 一 本 书 把 红色 和 蓝 色 聚 








类 连接 起 来 。 颇 具 讽 刺 意 味 的 是 ， 这 本 书 的 名 字 叫 《What Went 
Wrong》， 如 图 7-10 所 示 。 
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图 7-10: 对 2003 年 的 政治 书籍 的 划分 〈 见 彩 图 57) 


2004 年 的 映射 图 〈 见 图 7-11) 是 在 2004 年 美国 总 统 竞选 之 前 几 个 
月 构建 的 ， 有 几 本 书 把 这 两 个 聚 类 连接 在 一 起 。 同 样 ， 至 少 对 于 销售 
较 好 的 书籍 ， 左 右 阵营 之 间 很 少 存 在 交叉 : 每 个 党 派 的 人 似乎 阅读 越 
来 越 多 支持 他 们 现 有 的 思想 框架 的 书籍 。 这 并 不 是 说 没有 同时 阅读 红 
色 和 蓝 色 书 籍 的 读者 ， 但 是 这 样 的 读者 看 起 来 是 少数 。 我 只 查看 
Amnazon 的 畅销 书籍 ， 通 常情 况 下 也 会 查看 这 些 书籍 的 “同时 也 购买 
了 ”的 书籍 列表 ， 重 点 查看 最 频繁 和 紧密 联系 的 书籍 连接 (正如 人 人 
网 络 中 的 强 连接 ) 。 对 Amazon 数 据 的 更 深入 的 分 析 如果 Amazon 允 许 
的 话 ) 可 能 会 揭示 出 红色 和 蓝 色 书籍 中 更 弱 更 不 频繁 的 连接 。 我 期 望 





看 到 少 部 分 人 阅读 两 个 党 派 的 书籍 一 一 很 多 可 能 是 在 学 术 行业 、 教 学 
或 者 选择 了 两 个 党 派 都 介绍 和 讨论 的 诬 程 。 





我 使 用 2005 年 到 2007 年 的 Amazon 数 据 继 续 创 建 这 些 政治 书籍 映射 
图 ， 我 依然 还 是 得 到 同样 分 明 的 红色 / 蓝 色 划分 。 书 籍 会 随 着 时 间 变 
化 ， 但 是 全 局 的 网 络 模式 依然 保持 不 变 。 该 模式 连接 强度 如 何 ? 为 了 
对 这 个 问题 进行 测试 ， 我 对 自己 的 数据 收集 方法 进行 了 实验 一 一 连接 
度 强 的 模式 是 由 于 我 的 测量 方法 所 生成 的 结果 吗 ? 不 是 ! 不 考虑 数据 
收集 方法 ， 只 要 我 遵循 为 人 们 所 接受 的 实践 方法 一 一 比如 “滚雪球 式 
抽样 ”( Csowball sampling) ( (Hckathorn 1997) 一 一 其 结果 就 显示 
了 强 连接 的 红色 和 蓝 色 聚 类 。 有 时 不 同 的 方法 会 导致 一 些 新 的 书籍 混 
入 其 中 ， 但 是 全 局 模式 还 保持 稳定 。 出 现 的 政治 书籍 网 络 模式 对 于 数 
据 收 集 方法 和 截断 并 不 敏感 ， 意 味 着 该 模式 是 强 模式 ， 而 且 具 有 持久 
性 。2008 年 ， 随 着 美国 总 统 大 选 的 临近 ， 我 决定 对 政治 网 络 捕获 若干 
快照 。 随 着 大 选 日 越 来 越 近 ， 网 络 会 如 何 变化 ? 我 从 3 个 关键 时 刻 捕获 
网 络 : 
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图 7-11: 对 2004 年 政治 书籍 的 划分 ( 见 彩 图 58) 


”在 初 选 结束 时 。 


”在 最 后 一 场 拉 选 票 大 会 后 。 


”在 11 月 选举 日 临近 前 。 


我 预计 红色 / 蓝 色 划分 还 会 持续 存在 ， 但 是 不 知道 在 总 统 选举 过 程 
中 是 否 会 出 现 有 趣 的 模式 。 


在 2008 年 6 月 ， 在 初 选 确定 各 个 政党 的 主 候选 人 后 ， 我 采用 了 和 党派 
政治 辩论 的 预测 模式 。 在 2008 年 1 月 的 Iowa 党 团 中 ， 奥 巴 马 表示 : “我 





们 不 是 一 个 由 红色 和 蓝 色 表示 的 州 的 集合 ， 我 们 是 美利坚 合众国 。” 
而 麦 凯 恩 宣传 其 紫色 表示 的 “独立 ”的 根源 。 但 是 书籍 数据 会 给 我 们 


提供 什么 信息 呢 ? 


图 7-12 是 在 2008 年 6 月 创建 的 。 作 为 一 个 小 实验 ， 我 增加 一 种 新 的 
颜色 : 浅 赣 色 。 根 据 Amazon 的 销售 数据 ， 这 些 书 籍 和 其 他 赣 色 表示 的 
聚 类 有 交集 。 但 是 查看 这 些 书 籍 的 标题 和 作者 ， 它 们 并 不 适合 普通 的 
蓝 色 主题 和 先前 迭代 的 蓝 色 节点 。 在 该 时 间 点 ， 比 起 红色 表示 的 书籍 
读者 ,流行 的 保守 派 、 独 立 派 和 上 自由 派 都 和 蓝 色 表示 的 读者 有 更 多 的 
连接 。 只 有 Ge orge Will 把 红色 节点 表示 的 人 们 和 美国 政治 界 的 其 他 
人 桥接 起 来 ， 而 “ 老 保 守 派 ”和 “新 保守 派 ” 之 间 存 在 分 裂 ， 其 中 比 
起 “新 保守 派 ”，“ 老 保守 派 ” 在 2008 年 夏天 立场 和 进步 派 更 一 致 。 
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图 7-12: 2008 年 6 月 的 政治 书籍 购买 模式 〈 见 彩 图 59 ) 


2008 年 8 月 ， 出 现 了 一 些 反 奥巴马 的 书籍 。 一 本 新 的 亲 奥 巴 马 的 
书 ， 奥 巴 马 自 己 作 序 ， 也 在 预 发 布 和 Amazon 中 销售 。 图 7-13 显 示 了 谁 
在 阅读 这 些 书籍 。 那 本 杀 奥 巴 马 的 书 《Change We Can Believe 
In》， 是 坚实 地 属于 蓝 色 聚 类 ， 表 示 已 经 购买 亲 奥 巴 马 书籍 的 人 们 也 

会 购买 这 本 书 。 相 似 地 ， 反 奥巴马 的 书籍 一 一 《The Obama Nation) 
All (The Case Against Barack 0bama》 一 一 也 主要 是 那些 已 经 购买 了 
反 奥 巴 马 书籍 的 人 们 所 购买 。 然 而 ， 其 中 一 本 反 奥巴马 的 书籍 和 紫色 











聚 类 中 的 其 中 一 本 《The Late Great USA》 连 接 。 可 能 是 一 些 犹豫 不 
决 的 选民 ， 对 当前 国家 现状 不 满 ， 一 直 在 阅读 该 书 来 确定 对 奥巴马 的 
看 法 吗 ? 


对 于 麦 贞 恩 ， 无 论 是 文 持 还 是 反对 ， 都 没有 相关 书籍 列 于 Amazon 
的 最 畅销 政治 论战 书籍 之 列 。 人 们 是 否 在 选举 过 程 中 对 他 已 经 有 足够 
多 的 了 解 ， 还 是 人 们 对 他 不 感 兴趣 ? 图 7-13 所 示 的 书籍 之 间 的 连接 模 
式 映射 图 说 明了 在 2008 年 夏 末 最 有 影响 力 的 政治 书籍 是 《What 
Happened》 和 《The Post American World》 一 一 都 没有 提 到 当前 的 选 
àS! 《What Happened》 是 由 布什 的 前 新 闻 A435 A, (ER Ais 8 RS 
中 的 读者 购买 它 。 
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图 7-13: 2008 年 8 月 的 政治 书籍 购买 模式 ( 见 彩 图 60) 


社交 网 络 分 析 和 数据 挖掘 /可 视 化 为 我 们 提供 两 类 成 果 : 
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”正面 和 负面 的 结 末 和 观点 。 


这 两 个 分 类 存在 交集 ， 如 图 7-14 所 示 。 在 参与 的 数 百 个 社交 网 络 
分 析 项 目 中 ， 我 发 现 客户 通常 最 喜欢 观看 他 们 没有 料想 到 的 结果 一 一 





未 预期 〈 尤 其 是 负面 未 预期 ) 模式 ， 而 且 这 些 模 式 会 引发 一 些 问 题 。 


| 


负面 预期 负面 未 预期 


图 7-14: 社交 网 络 分 析 的 “发 现 矩阵 ”《 见 彩 图 61 ) 





使 用 图 7-14 的 发 现 窍 阵 ， 我 们 一 起 来 查看 最 后 一 张 图 。 在 2008 年 
10 月 底 ， 随 着 总 统 竞 选 逐渐 接近 尾声 ， 我 又 查看 了 一 下 人 们 购买 的 政 
治 书 籍 以 及 生成 的 模式 。 图 7-15 显 示 了 预选 网 络 图 。 在 该 图 中 出 现 了 
一 些 未 预期 的 模式 ， 以 及 一 个 预期 模式 。 
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图 7-15: 在 2008 年 11 月 竞选 前 儿 周 的 政治 书籍 购买 模式 ( 见 彩 图 
62) 


和 之 前 所 有 的 映射 图 不 同 ， 在 红色 聚 类 和 蓝 色 聚 类 之 间 不 存在 把 
它们 桥接 起 来 的 书籍 一 一 这 两 个 聚 类 是 完全 分 开 ! AE RRMA A R 
类 没有 任何 共同 之 处 ! 这 种 模式 体现 了 两 极 分 化 之 间 存 在 的 鸿沟 ， 以 
及 在 苋 选 活动 过 程 中 表现 出 的 深 深 的 敌意 。 没 有 讨论 到 政治 问题 和 大 
经 济 问题 。 这 种 模式 可 以 归 类 为 基于 每 个 竞选 活动 的 日 党 行为 的 负面 
预期 模式 。 





图 7-15 所 示 的 可 视 化 还 说 明了 右倾 读者 一 直 购 买 社区 组 织 者 的 重 
要 书籍 《Rules for Radicals》。 而 该 读者 群 曾 经 嘲笑 社区 组 织 ! 为 
什么 右倾 读者 会 购买 这 本 通常 只 受 左倾 读者 欢迎 的 书 ? 是 否 是 右倾 读 
者 试图 找 出 为 什么 奥巴马 的 竞选 活动 基于 社区 组 织 原则 能 够 如 此 成 











Th? 这 是 一 个 未 预期 模式 ， 而 该 模式 应 该 归属 于 正面 还 是 负面 模式 取 
决 于 你 站 在 哪 一 边 。 


最 后 一 个 未 预期 模式 是 那些 购买 杀 奥 巴 马 书籍 的 人 们 没有 购买 其 
他 政治 书籍 。“ 关 于 奥巴马 ”的 聚 类 和 包含 政治 辩论 的 其 他 聚 类 不 相 
连 。 该 模式 可 能 说 明 这 些 读者 只 对 奥巴马 和 本 届 竞 选 感 兴趣 ， 而 不 是 
一 般 的 政治 问题 。 


从 本 届 预 选 政治 书籍 网 络 图 中 还 发 现 一 个 预期 模式 。 从 2004 年 开 
台 ， 注 册 的 民主 党 人 要 多 于 共和 党 人 ， 因 此 直观 感觉 是 存在 更 多 的 赣 
色 书 籍 。 相 反 地 ， 右 派 专注 于 更 少 的 书籍 来 宣传 其 消息 《书籍 网 络 图 
并 不 能 反映 销售 的 书籍 的 数量 ， 因 此 有 可 能 是 右派 读者 实际 上 购买 了 
更 多 数量 的 书籍 一 一 我 们 无 法 知道 ， 因 为 Amazon 没 有 给 出 这 些 数 
据 。) 这 可 能 可 以 看 做 两 个 党 派 的 正面 预期 模式 ， 但 是 原因 不 同 。 碳 
派 可 能 理解 为 其 方法 更 集中 ， 而 左派 可 能 理解 相反 ， 认 为 缺乏 不 同 的 
观点 。 相 反 地 ， 左 派 可 能 正面 地 评价 其 书籍 种 类 的 多 样 化 ， 认 为 表示 
不 同 的 观点 ;而 右派 可 能 认为 它 表 示 信 息 分 散 不 集中 。 

















[3] : 参考 http: //orgnet. com/inflow3. html. 


结束 语 


正如 本 章 所 给 出 的 可 视 化 所 示 ， 我 们 的 选择 揭示 了 我 们 是 谁 以 及 
我 们 喜欢 谁 。 我 们 做 出 的 决定 不 仅 能 够 识别 我 们 的 一 些 方面 ， 而 且 能 
够 识别 出 我 们 属于 哪些 分 组 。 正 如 谚语 “ 物 以 类 聚 ， 人 以 群 分 ”所 
言 ， 我 们 做 出 的 选择 可 以 帮助 我 们 理解 所 在 分 组 的 其 他 成 员 的 行为 。 
在 将 来 “比如 在 Web 上 ) ， 我 们 的 很 多 选择 可 能 不 是 有 意识 的 : 我 们 的 
智能 手机 可 能 可 以 和 附近 的 其 他 智能 设备 通信 ， 从 而 找 出 我 们 这 里 发 
现 的 模式 。 少 数 大 胆 的 人 可 能 会 为 设备 编写 程序 ， 从 而 可 以 选择 性 地 
破坏 他 们 所 鞠 入 的 经 典 模式 一 一 举 个 例子 ， 当 两 个 人 的 设备 显示 他 们 


可 以 交流 时 ， 红 色 分 类 的 书籍 的 读者 可 能 会 和 蓝 色 分 类 的 读者 交谈 。 





Amazon 的 数据 表明 我 们 可 以 对 不 同 分 组 的 政治 选择 和 行为 有 更 深 
的 理解 ， 而 不 需要 知道 属于 这 些 分 组 的 任何 个 人 信息 。 不 需要 透露 任 
何 私 人 数据 ， 我 们 束 能 够 理解 基于 书籍 购买 的 大 规模 的 政治 模式 。 更 
让 人 惊奇 的 是 ， 这 些 数据 和 用 于 显示 它 所 创建 的 简单 的 可 视 化 ， 与 代 
价 很 高 的 全 国 范 围 的 选民 调查 一 致 。 花 费 一 个 小 时 对 Amazon 数 据 的 收 
集 和 映射 能 够 使 我 们 获得 一 些 和 花 这 数 千 小 时 收集 和 分 析 选 氏 调查 和 
采访 数据 一 样 的 洞察 。Pareto 的 “80/20 法 则 ” | 在 此 很 适用 : 我 们 
获得 了 80% 的 洞 聚 ， 而 花费 的 时 间 远 远 少 于 20% 一 一 合理 结合 数据 挖 气 
和 数据 可 视 化 的 高 回报 ! 





[1] 80/20 法 则 ， 又 称 帕 累 托 法 则 ， 指 的 是 在 众多 现象 中 ，80% 的 结果 
取决 于 20% 的 原因 。 更 多 详 见 
http: //en. wikipedia. org/wiki/Pareto principle. 
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第 8 章 ”美国 参议 院 社 交 图 (1991~ 
2009) 的 可 视 化 Andrew Odewahn 


2009 年 初 ， 很 多 新 闻 报 道 都 在 关注 两 党 合作 的 星 端 。 尺 管 绝 大 多 
数 报道 只 是 典型 的 “人 云 亦 云 ”之 类 的 文章 ， 其 中 一 篇 文章 引起 了 我 
的 特别 注意 。《Slate》 杂 志 的 副 主编 Chris Wilson K -REKA 
文章 ， 在 这 篇 文章 中 ， 他 使 用 了 对 亲 和 性 数据 进行 投票 和 图 形 可 视 化 
的 方式 来 帮助 说 明 参 议员 Arlen Specter 的 “ 换 党 ”事件 (Wlson 
2009) 。 图 表 显 示 了 两 个 大 的 和 党派 聚 类 R ESCM Ze, KMH 
用 红色 表示 ) ， 两 个 党 派 之 间 通 过 几 条 细 线 连接 ， 这 些 细 线 代表 了 一 
贯 跨 党 派 投票 的 一 些 参 议员 U ，。S$pecter 正 是 这 些 参议 员 中 的 一 位 。 








这 篇 文章 让 我 想到 了 如 下 几 点 : 第 一 ， 通 过 定量 的 证 据 来 说 明 本 
质 上 定性 的 事情 真 的 很 酷 。 可 以 一 目 了 然 的 是 ， 参 议员 Specter 身 上 正 
发 生 一 些 有 趣 的 事情 ， 预 示 着 他 正在 背离 原来 所 在 的 党 派 。 这 件 事 情 
使 我 对 于 新 闻 报 道中 的 其 他 事件 是 否 也 存在 类 似 的 证 据 感 到 很 好 奇 。 
举 个 例子 ， 很 多 报道 聚焦 于 各 种 参议 院 联盟 (“十 四 人 帮 ”( (Gng of 
Fourteen) 、“ 新 英格兰 温和 派 ”( (Nw England Moderates) 和 “南方 
共和 派 ”( (Suthern Republicans) ) 以 及 他 们 如 何 力 挺 或 阻挠 此 提议 
或 彼 倡议 。 





基础 公民 学 知识 会 使 你 相信 参议 院 和 众议院 不 同 ， 国 家 创始 人 设 
计 它 的 目标 正 是 为 了 抑制 类 似 上 述 情况 的 联盟 。 这 是 一 个 简单 的 机 
构 : 总 共 100 个 参议 员 ， 每 个 州 每 6 年 选举 两 个 参议 员 作 为 代表 。 各 个 
州 的 选举 交错 举行 ， 因 此 大 约 每 两 年 会 对 三 分 之 一 的 议员 重新 选举 一 
次 ， 这 意味 着 参议 院 联 盟 会 及 生变 化 ， 但 变化 不 会 太 剧 烈 。 虽 然 可 能 
发 生 参 议员 们 更 换 党 派 、 退 休 甚 至 在 任期 间 去 世 ， 这 些 事件 发 生 的 概 
率 很 低 。 最 后 ， 任 期 本 里 束 为 参议 员 带 来 很 大 优势 。 一 旦 任职 ， 现 任 
参议 员 们 很 少 会 因为 投票 被 吐 免 。 











我 对 目 己 是 否 能 够 使 用 图 形 可 视 化 来 描绘 出 一 幅 广阔 的 图 像 感到 
好 奇 ， 通 过 这 个 图 像 可 以 显示 参议 院 的 组 织 结构 随时 间 的 动态 变化 情 
况 。 如 果 关 于 “高 校 故 事 ”是 事实 的 话 ， 即 参议 院 本 质 上 是 一 个 保守 
的 团体 ， 通 俗 地 说 就 是 倾 同 于 排斥 改变 ， 那 么 这 个 图 形 应 该 会 保持 相 
对 稳定 。 如 果 不 是 事实 ， 那 么 可 视 化 展现 很 可 能 使 人 们 对 2009 年 发 生 
的 塑造 了 美国 的 一 些 难以 置信 的 重要 事件 以 及 记者 们 报道 这 些 事件 的 
方式 产生 一 些 深 刻 的 见解 。 在 本 章 中 ， 我 将 介绍 如 何 应 用 投票 数据 对 
这 些 问 题 进行 可 视 化 探索 。 首 先 ， 介绍 生成 可 视 化 所 需 的 基本 步 又 。 
其 次 ， 展 示 最 终结 果 ， 讨 论 在 我 所 研究 的 时 间 跨 度 为 18 年 的 期 间 内 图 
像 是 如 何 变 动 的 ， 并 提供 一 些 历史 背景 信息 ， 对 参议 院 的 “局 中 公民 
教育 ”的 优点 的 观点 做 出 一 些 结论 。 在 此 之 后 ， 我 将 讨论 为 什么 该 可 
视 化 是 美丽 的 《而 不 仅仅 是 有 趣 的 ) ， 同 时 探讨 在 可 视 化 过 程 中 市 来 

















的 种 种 缺点 。 最 后 ， 我 将 分 享 在 完成 这 个 可 视 化 过 程 之 中 领悟 到 的 一 
些 收获 ,希望 可 以 应 用 于 你 们 的 日 党 工作 之 中 。 


创建 可 视 化 
我 是 按照 Wilson 的 文章 中 给 出 的 可 视 化 基础 指南 开始 工作 的 ; 


” 节 扩 代表 参议 员 ; 每 个 节 反 有 一 个 数值 标签 ， 一 个 标签 对 应 一 
个 参议 员 ， 参 议员 是 按照 字母 序 进行 排序 的 。 








节点 是 基于 其 对 应 的 参议 员 的 党 派 倾 问 进 行 着 色 的 。 采 用 标准 
蓝 色 表示 民主 党 ,红色 表示 共和 党 。〔 我 还 使 用 了 绿色 表示 独 
黄色 表示 原始 数据 中 不 包含 的 和 党派 。 


规 


y, 
W565 


© 如 果 两 个 参议 员 在 选 定 的 时 期 内 投票 相同 的 概率 超过 65%， 他 们 
所 对 应 的 两 个 节点 就 通过 一 条 边 连 接 起 来 。 





此 外 ， 我 决定 对 图 表 的 方向 进行 调整 ， 这 样 民主 党 议员 所 对 应 的 
市 反 在 左边 ， 而 共和 沈 的 在 右边 。 男 外 ， 由 于 期 望 可 以 了 解 参 议院 是 
如 何 演化 的 ， 因 此 ， 我 根据 几 个 有 意义 的 时 间 帧 对 数据 进行 分 段 ， 并 
为 每 个 分 段 数据 创建 一 个 可 视 化 图 形 。 


我 选择 使 用 立法 会 会 期 作为 基本 的 时 间 单 元 。 一 个 立法 会 会 期 持 
续 两 年 ， 开 始 和 结束 时 间 都 是 1 月 3 日 ， 通 常 被 称 为 “国会 ”。 每 届 国 





会 都 按 序 进行 连续 编号 。 比 如 ， 第 104 届 国会 历时 时 期 始 于 1995 年 1 月 3 
日 ， 终 于 1997 年 1 月 3 日 ， 第 105 届 国会 则 是 始 于 1997 年 1 月 3 日 ， 终 于 
1999 年 1 月 3 日 。 各 届 国 会 都 依 此 类 推 。 (在 写本 章 时 正 值 第 111 届 国会 
期 间 。) 








选用 会 期 作为 基本 单元 有 两 个 原因 。 第 一 ， 它 是 最 短 的 一 致 的 时 
间 段 。 参 议院 是 一 个 动态 团体 ， 其 成 员 在 任何 时 候 都 有 可 能 发 生变 
化 ,尤其 是 在 选举 年 份 ， 因 此 ， 如 果 使 用 超过 两 年 的 时 间 周 期 ， 会 因 
为 需要 根据 投票 记录 中 途 产生 新 的 参议 员 而 使 得 关系 混乱 。 第 二 ， 更 
显而易见 的 是 ， 这 个 时 间 周 期 正 是 报告 数据 的 周期 ， 因 此 这 是 一 个 非 
党 方便 的 选择 。 











完成 这 些 初 步 选择 之 后 ， 构 建 可 视 化 还 需要 3 个 步骤 : 收集 关于 参 
议员 以 其 投票 的 原始 数据 ， 计 算 描述 这 些 参 议员 的 关联 度 的 杀 密 上 度 托 
阵 ; 把 信息 输入 到 GraphViz〈 一 个 图 形 可 视 化 工具 包 ) ， 把 关系 图 形 
化 成 一 个 图 像 。 以 下 各 节 将 深入 描述 其 中 的 每 个 步骤 。 








收集 原始 数据 





我 的 可 视 化 需要 两 种 主要 类 型 的 数据 : 关于 个 别 参议 员 的 元 数据 
(47. URE) ， 以 及 在 一 段 时 期 内 他 们 的 投票 记录 。 刚 开始 ， 由 
于 很 多 大 的 政府 数据 网 站 (dta. gov. thomas. com 等 ) 通过 订阅 发布 





消 轧 ， 缺 失 历 史 信 息 看 起 来 是 一 个 主要 障碍 。 国 会 中 的 一 次 特殊 投票 
会 被 发 表 ， 但 是 难以 及 时 追踪 完整 的 投票 记录 。 





滁 运 的 是 ， 我 发 现 网 站 GovTrack (http: //govtrack. us)， 该 网 站 
宣传 目 己 为 “追踪 国会 的 人 文 项 目 ”。 虽 然 它 在 很 大 程度 上 提供 和 其 
他 大 的 政府 网 站 一 样 的 数据 ， 它 还 (除了 其 他 以 外 ) 通过 非常 有 意义 
的 聚集 函数 ， 将 订阅 的 信息 转换 成 退 溯 到 1991 年 的 XL 文件 ， 部 分 数据 
可 以 用 于 预测 本 届 国 会 。 因 此 ， 我 的 项 目 包含 第 102 届 国会 之 前 的 国会 
的 所 有 记录 ， 但 是 在 1991 年 前 的 数据 是 不 完整 的 。 你 可 以 免费 从 
“Source Data”【〔 源 数据 ) > 页面 下 载 任意 或 所 有 的 数据 。 该 网 站 
有 非常 好 的 文档 说 明 ， 清 晰 地 描述 了 如 何 下 载 数据 及 其 结构 。 











在 GovTrack， 参 议员 的 元 数据 保存 在 文件 people. xml 中 。 在 这 个 
站 点 上 ， 该 文件 存在 两 种 版 本 : 当前 文件 ， 包 含 当前 正在 国会 就 职 的 
工作 人 员 信 息 ; 历史 文件 ， 包 含 任何 曾经 在 国会 就 职 的 人 员 信 息 。 在 
这 个 项 目 中 ， 我 使 用 的 是 历史 版 本 。 











在 这 两 个 文件 中 ， 关 于 个 别 参议 员 (或 众 议 员 〉 的 信息 显示 在 < 
person> 元 素 中 ; 每 个 人 有 一 个 唯一 ID， 在 整个 GovTrack 数 据 集中 ， 
一 个 人 的 ID 号 都 保持 一 致 。 关 于 党 派 的 信息 是 保存 在 子 元 素 < role> 
中 。 举 个 例子 ， 以 下 是 John Kennedy 的 数据 项 ， 他 既是 众 议 员 又 是 参 
议员 〈 当 然 ， 他 还 是 总 统 ) : 








< person id=’ 406274’ 

lastname=’ Kennedy’ firstname= John’ middlename=’ Fitzgerald’ 
birthday=’ 1917-05-29” +++ > 

<role type= rep’ 
startdate=’ 1947-01-01’ enddate=’ 1948-12-31’ 
party= Democrat’ state=’ MA’ district? 11 /> 
<role type= rep’ 
startdate=’ 1949-01-01’ enddate=’ 1950-12-31’ 
party= Democrat’ state= MA’ district? 11 /> 
<role type?” sen’ 
startdate=’ 1959-01-01’ enddate=’ 1960-12-31’ 
party= Democrat’ state= MA’ district=” /> 

< /person> 


GovTrack 中 的 投票 数据 是 按照 两 年 的 立法 会 议 组 织 的 。 投 票 时 根 
据 唱 票 来 记录 的 ， 即 当 参 议员 在 面临 的 一 个 问题 上 一 起 投 “ 是 ”或 


“人 否 ”。 在 一 次 会 议 过 程 中 ， 通 常 有 几 百 轮 唱 票 。 











GovTrack 把 每 一 轮 唱 票 以 XML 文 件 形式 记录 下 来 。 举 个 例子 ， 下 面 
这 个 列表 是 唱 票 文件 s1995-247. xml 的 一 段 摘 录 ， 它 是 在 第 104 届 国会 
上 做 出 的 一 轮 投 票 ， 决 定 是 否 由 允许 贝尔 公司 提供 交互 本 地 访问 和 传 
输 区 (LTA) 商业 移动 服务 。 其 中 一 些 投票 非常 无 聊 。) 注意 ， 每 个 
<voter> 元 素 都 有 一 个 id， 该 id 可 以 重新 链接 到 people. xml 文 件 中 : 





<roll 

Where= senate’ session=" 104” year=" 1995” rol 1="247” 
when="802710180’ datetime=”"1995-06-09T11: 03: 00-04: 00” 
updated= 2008-12-30T13: 34: 55-05: 00” 

aye= 83” nay="4’nv="13” present="0"> 

<voter id="400566” vote="+” value=" Yea” state="MN”’ /> 
<voter id="300016”’ vote="-”value="Nay” state="WV" /> 
<voter id="400559” vote="-”value="Nay” state="WA”’ /> 
<voter id="300011” vote="0’ value="Not Voting” state="CA”/> 


<voter id="400558” vote="0” value="Not Voting” state="GA” /> 


</roll> 





这 些 文件 “历史 “people” 文 件 和 所 有 的 不 同 种 类 的 唱 票 文件 ) 
包含 我 想 要 的 所 有 数据 。 然 而 ，people. xml 文 件 有 6MB 多 的 数据 ， 整 个 
GovTrack 数 据 集中 有 几 千 轮 唱 票 ， 我 希望 这 些 数据 能 够 以 更 便捷 的 格 
式 保 存 。 因 此 ， 我 写 了 一 些 脚本 ， 只 抽取 可 视 化 需要 的 部 分 数据 ， 把 
它 保 存 到 SQLite 数 据 库 中 。 模 式 如 图 8-1 所 示 。 为 了 简单 起 见 ， 我 把 一 
个 党 小 基于 最 近 的 < role> 进行 赋值 ， 后 来 回想 时 对 该 决定 一 直觉 得 
比较 纠结 。 





senator_id roll 


name senator_id 
party vote 





图 8-1: 表示 可 视 化 所 需 的 原始 数据 的 简单 的 数据 库 模 式 
[1] 在 这 里 ， 需 要 说 明 的 一 点 是 ，“ 图 表 ” 指 的 是 一 些 节 点 和 边 的 集 
合 ， 而 不 是 以 (x, y) 坐标 表示 的 数据 点 绘图 。 
[2] : 参见 http: //bit. ly/4iZib。 


Tha aR AERE pE 


Re JR a BE OCR a AER AR, RECAER RR ATE 
和 矩阵 的 问题 ， 亲 和 性 可 以 表示 图 中 的 各 条 边 。 这 需要 构建 一 个 杀 和 性 
矩阵， 如 图 8-2 所 示 ， 它 可 以 计算 不 同 参 议员 做 出 相同 选票 的 次 数 。 我 
可 以 使 用 该 矩阵 来 痊 代 边界 条 件 。 


参议 员 B 










N/A | N/A IN 


Sooo. 


图 8-2: 杀 和 性 和 矩阵 






以 下 伪 代 码 说 明了 基本 逻辑 : 


#Select all distinct roll calls from the vote table 

roll list= 

select 

distinct roll 

from 

votes 

#Process each roll call vote in roll list 

for roll idx in roll list: 

#Process’ Yea votes, then’ Nay’ votes 

for vote_idx in|” Yea”, “Nay” ]: 

#Find the senators that cast this vote on this roll call 

same vote list= 

select 

senator id 

from 

votes 

where 

roll=roll idx and 

vote=vote idx 

#Now tally all the pairs of senators in the list 

for senator_a in same vote list: 

for senator_b in same vote list: 

affinity matrix[senator a, senator b]+= 

affinity matrix[senator b, senator aj]+= 

#Translate the raw matrix into edges 

N=length(roll list)#Represents the number of votes in the 
session 

for senator_a in affinity matrix. rows: 

for senator_b in affinity matrix. columns: 

if (affinity_matrix[senator_a, senator b]/N) >0.65 then: 

add an edge between Senator A and Senator B 





因为 这 是 一 个 相当 密集 的 运算 集 ， 我 把 结果 保存 在 数据 库 中 的 男 
ae 





使 用 GraphViz 对 数据 可 视 化 





最 后 一 步 是 把 所 有 这 些 数据 一 一 参议 员 的 元 数据 和 投票 记录 一 一 
转化 成 一 系列 图 片 。GraphViz (http: //www. graphviz. org) 是 一 个 开 
源 的 图 形 可 视 化 包 ， 是 适合 该 工作 的 理想 工具 。 





图 形 可 视 化 是 对 各 种 不 同 的 布局 算法 的 研究 ， 这 些 算法 对 图 形 中 
的 节点 和 边 进行 抽象 表示 ， 并 转化 成 一 张 图 片 。 我 使 用 GraphViz 的 
“neato” 布 局 算法 '  ， 其 工作 方式 是 通过 把 节点 模拟 成 带 正 电 的 粒 
子 ， 把 边 模 拟 成 张力 。 贡 点 互 斥 ， 而 边 把 关联 的 节点 拉 到 一 起 。 刚 开 
始 ， 所 有 的 节点 都 是 随机 置 于 一 个 平面 上 ， 算 法 模拟 推力 和 拉力 这 些 
制衡 来 为 每 个 节点 计算 最 终 表 示 “ 最 佳 ” 全 局 布局 的 x 坐 标 和 y 坐 标 
(由 于 这 个 原因 ， 这 样 的 算法 被 称 为 “ 力 导 同 布局 ”( Cree- 
directed layout) 算 法 。) 。 图 8-3 说 明了 该 布局 算法 的 思想 。 











图 8-3: Neato, GraphViz 中 的 力 导 向 布局 算法 ， 把 节点 模拟 成 带 正 电 
的 粒子 ， 边 表示 成 张力 


从 该 过 程 产生 的 结构 和 基础 数据 的 连接 密度 成 正比 。 因 此 ， 一 组 
紧密 连接 的 参议 员 应 该 创建 一 个 子 聚 类 ， 该 子 聚 类 排斥 其 他 子 聚 类 。 
刃 外 值得 一 提 的 是 ， 因 为 子 聚 类 控制 边 是 否 存在 ， 基 于 选 紧 杀 和 性 分 
配给 边 的 临界 值 决定 了 图 中 观察 到 的 聚 类 的 程度 。 一 个 非常 低 的 值 
《如 20%) 将 会 导致 相对 较 少 的 子 结构 ， 因 为 一 个 会 议 上 的 很 多 选票 通 
常 都 是 例 行 事项 ， 绝 大 多 数 参议 员 都 会 同意 。 相 反 地 ， 一 个 很 高 的 值 
《比如 95%)》 将 会 导致 生成 雁 片 很 多 的 图 形 ， 因 为 只 有 强 连 接 的 节点 对 
FREM: 该 图 看 起 来 就 像 一 个 偶尔 连接 的 随机 点 集合 。 临 界 值 65% 看 
起 来 是 这 些 紧 张 的 竞争 之 间 的 最 佳 平衡 。 























一 种 称 为 DOT 的 语言 描述 了 GraphViz 的 节点 和 边 。D0T 是 直截了当 
A: 使 用 唯一 标签 表示 节点 ， 边 是 通过 使 用 一 标识 符 连 接 两 个 或 者 更 
多 的 节点 标签 来 表示 的 。 各 种 不 同 的 其 他 属性 《颜色 、 标 签 等 ) 是 通 
过 把 它们 放置 在 其 修改 的 对 象 的 方 括号 中 来 定义 的 。 





以 下 是 DOT 文件 的 一 个 例子 ( (Gnsner、Koutsofios 和 North 
2006) : 


digraph G{ 

alshape=polygon, sides=5, peripheries=3, 
color=lightblue, style=filled]; 

clshape=polygon, sides=4, skew=.4, label="helloworld” ] 

dl shape=invtriangle]; 


e[shape=polygon, sides=4, distortion=. 7]; 
a->b->c; 

b-> d; 

} 





图 8-4 显 示 了 在 GraphViz 中 生成 的 相应 图 片 





hello world 


图 8-4: GraphViz 生 成 的 样本 图 片 








因此 ， 为 了 对 参议 院 数 据 创建 可 视 化 ， 我 需要 创建 一 个 DOT 文 件 ， 
作为 GraphViz 软 件 的 输入 。 这 需要 实现 另 一 个 脚本 ， 对 所 有 信息 进行 
打包 ， 保 存 到 之 前 创建 的 数据 库 中 一 一 参议 员 ID、 按 字母 序 排列 的 标 








签 列表 、 基 于 和 觉 派 的 节点 色彩 以 及 杀 和 性 矩阵 中 的 边 一 一 然后 把 这 些 
数据 传 给 模板 引擎 ， 该 引擎 会 生成 一 个 DOT 文 件 来 表示 。 以 下 是 模板 : 


1 Digraph{ 

2 

3#for$senator in$vote data. nodes: 
A$ senator|’ id’ ][ 

5 shape="circle’, 

6 style="filled’, 

7 color=$senator[’ color’ ], 

8 label="$senator[’ label’ |” 

9 fontsize=" 128”, 

10 fontname="Arial”, 

11]; 

12#end for 

13 

14#for$e in$vote data. edges: 
15"$el’ senator a ]”->“$el’ senator pb ]” larrowhead=none] ; 
16#end for 

17} 


需要 注意 的 是 ， 第 3 行 和 第 14 行 的 for 循 环 是 用 于 对 节点 和 边 重 复 
进行 循环 。 粗 体 显 示 的 是 在 每 次 迭代 中 会 被 取代 的 变量 。 


[1] 想 要 更 多 了 解 “neato” 布 局 算法 ， 可 以 通过 以 下 链接 下 载 其 文档 
http: //www. graphviz. org/Documentation/neatoguide. pdf. 


产生 的 故事 


一 旦 我 把 所 有 需要 的 脚本 拼接 起 来 并 把 它们 转化 成 图 像 ， 就 会 产 
生 一 个 和 真实 情况 非常 一 致 的 故事 。 





图 8-5 显 示 的 是 第 102 届 参议 院 会 议 的 结构 图 ， 历 时 从 1991 年 1 月 3 
日 到 1993 年 1 月 3 日 。 在 这 届 会 议 中 ， 总 统 芥 治 H.W. 布什 在 第 一 年 任职 
期 间 ， 第 一 次 海湾 战争 爆发 ， 后 来 比尔 。 克林顿 当选 总 统 〈 在 1992 
年 ， 在 会 议 中 途 ) 。 虽 然 出 现 了 两 个 显著 不 同 的 选票 分 块 ， 在 中 心 分 
块 之 间 存 在 着 的 相当 程度 的 重合 ， 无 论 是 参议 员 的 数量 (在 中 部 地 区 
的 节点 ) 还 是 边 〈 交 叉 连 接 的 数量 ) ， 都 是 显而易见 的 。 








Quintin 
Burtex (NU) 





图 8-5: 第 102 届 参议 院 会 议 的 结构 图 〈 历 时 从 1991 年 1 月 3 日 到 1993 
年 1 月 3 日 ， 见 彩 图 63) 








图 8-6 显 示 了 第 104 届 参议 院 会 议 的 结构 图 ， 即 仅 两 年 后 。 该 结构 
图 (和 前 两 年 的 会 议 结构 图 ) 表示 “共和 党 音 命 ”( CRpublican 
Revolution) ， 在 这 期 间 共 和 党 在 近 40 年 来 首次 重新 夺回 众议院 和 参议 
院 的 权力 。 这 一 时 期 党 派 关 系 非常 紧张 ， 经 历 了 政府 被 解散 、 按 共和 
党 “和 美国 合约 ”投票 以 及 在 俄 克 拉 答 马 城 Murrah 联 邦 大 楼 爆炸 案 这 
些 事件 。 参 议院 的 可 视 化 图 说 明了 党 派 之 间 存 在 很 深 的 分 歧 ， 两 个 觉 
派 都 锁定 在 分 离 的 、 紧 密 的 小 圈子 中 。 








图 8-6: 第 104 届 参议 院 会 议 结构 图 (从 1995 年 1 月 3 日 到 1997 年 1 月 3 
日 ， 见 彩 图 64) 





图 8-7 显 示 了 随后 六 届 会 议 的 可 视 化 图 形 组 合 。 





图 8-7: 从 第 105 届 到 110 届 参议 院 会 议 的 结构 图 (历时 从 1997 年 1 月 3 
日 到 2009 年 1 月 3 日 ， 见 彩 图 65) 





这 些 会 议 期 间 发 生 的 一 些 事件 和 明显 的 结构 变化 包括 : 


。 第 105 届 会 议 (1997 年 1 月 3 日 至 1999 年 1 月 3 日 ) 。 在 本 届 会 议 期 
间 ， 由 共和 党 控制 的 众议院 对 总 统 克 林 顿 表决 弹劾 。 注 意 民 主 党 中 出 
现 的 明显 的 分 裂 ， 在 那 段 时 期 民主 党 内 经 常 出 现 这 样 的 分 歧 。 


。 第 106 届 会 议 (1999 年 1 月 3 日 至 2001 年 1 月 3 日 )。 该 期 间 在 参议 
院 对 总 统 克 林 顿 弹 勃 的 审判 。 虽 然 参议 院 和 众议院 相似 ， 也 是 由 共和 
党 控制 的 ， 参 议院 最 终 投票 无 罪 释 放 。 有 趣 的 是 ， 共 和 党 在 本 届 会 议 


期 间 存在 界限 分 明 的 重大 分 裂 ; 这 是 在 对 共和 党 进行 历时 18 年 的 调查 


第 107 届 会 议 (2001 年 1 月 3 日 至 2003 年 1 月 3 日 )。 本 届 会 议 期 间 
发 生 了 “9. 11” 袭 击 事件 (以 及 后 来 直接 针对 参议 院 本 身 的 炭 痊 热 袭 
击 案件 ) ; 伊拉克 战争 也 授权 通过 。 虽 然 在 民主 党 内 存在 很 小 的 分 
裂 ， 其 中 一 些 参 议院 趋 于 自由 党 ， 这 一 期 间 在 党 派 中 产生 了 一 股 新 生 
的 力量 ， 不 同 党 派 之 间 的 连接 比 自 1991 年 以 来 的 任何 时 候 都 多 。 








第 108 届 会 议 (2003 年 1 月 3 日 至 2005 年 1 月 3 日 )。 本 届 会 议 期 间 
爆发 了 伊拉克 战争 。 本 届 会 议 几 乎 是 回 退 到 第 104 届 国会 ， 区 别 在 于 
Ben Nelson (D, NE) 投 票 广 持 由 01lympia Snowe (ME), Susan 
Collins (ME) 和 Norm Coleman (MN) 组 成 的 规模 很 小 的 温和 共和 党 派 。 而 
其 余 的 共和 党 依然 保持 紧密 团结 ， 民 主 党 内 依然 存在 小 分 裂 。 





第 109 届 会 议 (2005 年 1 月 3 日 至 2007 年 1 月 3 日 ) 。 共 和 党 的 多 灾 
多 难 时 期 一 一 Tom Delay 和 Jack Abramoff 丑 闻 ，Terry Schiavo 案 例 的 
决裂 性 投票 ， 以 及 对 卡特 里 娜 飓风 非常 糟糕 的 回应 (“你 干 的 什么 鬼 
工作 ! ”( (Yu re doin’ a heckuva job, Brownie! ) ) 都 发 生 在 这 
届 会 议 期 间 。 尽 管 如 此 ， 共 和 党 的 参议 员 仍 然 非常 团结 。 相 反 地 ， 民 
主 党 内 部 继续 分 裂 ， 有 更 多 的 参议 员 转 向 小 的 、 自 由 派 团体 。 


。 第 110 届 会 议 〈2007 年 1 月 3 日 至 2009 年 1 月 3 日 ) 。 民 主 党 在 这 有 届 
会 议 期 间 获得 众议院 和 参议 院 的 控制 权 。 和 往届 会 议 不 同 ， 在 这 届 会 
议 期 间 ， 民 主 党 内 部 看 起 来 非常 统一 ， 而 共和 党 开始 分 裂 和 分 散 。 








虽然 图 8-7 显 示 的 会 议 都 没有 显示 如 第 102 届 和 104 届 那样 两 党 派 之 
间 存 在 的 巨大 分 裂 ， 在 过 去 6 届 会 议 中 ， 在 一 个 (或 两 个 ) 主 分 块 中 都 
存在 一 致 的 分 裂 模 式 。 在 第 111 届 国会 的 最 初 6 个 月 中 在 写本 节 时 ， 
会 议 还 正在 进行 ) 甚至 更 明显 地 延续 这 种 模式 。 如 图 8-8 所 示 ， 第 110 
届 会 议 的 民主 党 的 团结 使 得 两 党 分 块 几乎 达到 均匀 。 共 和 党 显示 了 其 
组 成 以 保守 派 为 核心 ， 外 围 是 分 散 的 温和 派 。 








因此 ， 看 起 来 数据 中 是 支持 2009 年 夏 的 联盟 故事 的 。 实 际 上 ， 至 
少 从 1991 年 始 ， 参 议院 一 直 是 不 断 变化 的 地 方 ， 有 变化 的 联盟 、 和 党 浅 
甚至 是 决定 关键 决策 方向 的 个 人 。 








图 8-8: 第 111 届 参议 院 会 议 最 初 6 个 月 的 结构 图 〈2009 年 1 月 3 日 到 





2009 年 ?月 1 日 ， 见 彩 几 66 ) 


当然 ， 回 想起 来 ， 这 几乎 算 不 上 什么 新 闻 。 这 种 交 蔡 联盟 模式 可 
能 又 回 到 了 最 初 的 美国 成立 时期， 正如 乔治 。 华盛顿 在 1796 年 的 《 告 
别 演 说 》 中 给 出 的 告 诚 ， 如 图 8-9 所 示 。 











图 8-9: 乔治 华盛顿 的 1976 年 《告别 演说 》 〈 从 国会 图 书馆 的 珍藏 
版 和 特别 收藏 部 门 获 得 授权 使 用 ) 





以 下 是 我 们 的 首届 总 统 关 于 不 同 政党 形成 党 派 的 趋势 所 说 的 话 
: 遗憾 的 是 ， 这 种 精神 深 深 地 根 扎 在 人 类 心灵 的 激情 中 ， 和 我 们 的 本 
性 是 分 不 开 的 。 它 在 各 界 政 府中 以 不 同形 式 存 在 ， 多 多 少 少 有 点 被 镇 
压 、 控 制 或 压制 ， 但 是 它 以 流行 的 方式 ， 被 作为 第 一 优先 级 ， 而 确实 
也 是 政府 最 大 的 敌人 。 


一 个 党 派对 另 一 个 党 派 的 交 蔡 控制 ， 受 复仇 思想 所 激化 ， 和 党 派 纠 
纷 很 自然 ， 在 不 同年 代 和 国家 犯 下 的 最 可 恶 的 菲 行 ， 莫 过 于 其 本 身 最 
可 怕 的 专政 。 


华盛顿 的 告诫 针 对 的 是 “不 同年 代 和 国家 ”， 我 认为 该 警示 同样 
适用 于 今天 。 因 此 ， 虽 然 2009 年 的 联盟 故事 可 能 还 比较 新 鲜 ， 其 最 基 
础 的 模式 实际 上 已 经 久 经 考验 了 。 故 事 中 的 不 同人 物 来 来 去 去 ， 而 故 
事 依 然 是 同一 个 故事 。 





[1] : 参考 


http: //en. wikipedia. org/wiki/George Washingtons Farewell Add 
resso 


[2] : BS 
http: //avalon. law. yale. edu/18th century/washing. asp. 


什么 使 它 美丽 


当 编辑 请 我 参与 本 书 的 写作 时 ， 我 的 第 一 个 想法 就 是 “可 是 我 做 
的 图 太 丑 了 ! ”。 标 签 随 着 时 间 变 化 ， 有 时 显得 有 些 故 ， 并 且 划 分 党 
派 的 方式 明显 地 存在 一 些 不 准确 的 地 方 。〈 我 很 快 将 会 详细 描述 一 些 
决策 上 的 失误 。) 但 是 当 我 进一步 思考 这 些 问题 时 ， 我 确定 这 项 工作 
中 做 出 的 最 基础 的 决策 是 正确 的 ， 因 此 它 使 得 其 他 一 切 都 可 以 挽回 。 





选择 相关 参议 员 之 间 的 网 络 连 接 作 为 可 视 化 框架 是 创建 美丽 的 可 
视 化 的 关键 因素 。 可 能 查看 其 原因 的 最 佳 办 法 是 把 它 和 其 他 描述 进行 
比较 ， 它 们 描述 的 是 相同 的 事物 ， 只 是 以 不 同 的 方式 展示 而 已 。 考 虑 
图 8-10， 这 是 MecCarty、Pole 和 Rosenthal (2008 年 ) 给 出 的 党 派 指 数 
的 时 间 序 列 图 。 





现在 ， 这 张 图 表 绝 对 没有 错误 ， 而 它 非常 出 色 地 说 明了 在 20 世 纪 
70 年 代 中 期 保守 主义 在 共和 和 党 中 占 据 重 要 地 位 。 当 你 考虑 它 如 何 清晰 
地 反映 了 尼克 松 总 统 的 “南方 策略 ”的 影响 ， 该 策略 利用 人 们 对 公民 
权利 的 担心 ， 把 曾经 坚实 的 南 民主 党 转 变 成 共和 觉 的 堡垒 ， 你 就 会 发 
现 该 可 视 化 非常 有 趣 。 然 而 ， 虽 然 该 可 视 化 所 表达 的 意思 非常 清晰 ， 
但 是 它 没有 提供 任何 其 他 因素 引发 读者 共鸣 ， 因 而 需要 做 一 些 研究 才 
能 了 解 其 背后 的 故事 。 











该 可 视 化 和 社交 图 可 视 化 不 同 。 举 个 例子 ， 知 道 了 每 个 点 表示 一 
个 参议 员 ， 你 很 自然 地 会 好 奇 : “那个 很 不 合群 的 人 是 谁 ? ”然后 欣 
喜 地 发 现 ， 他 就 是 那个 “ 特 立 独行 ”〈 (mvericky) WAR ZOLA. 
在 这 个 可 视 化 图 中 ， 你 会 发 现 : 党 派 中 的 崛起 在 图 上 并 不 是 简单 的 一 
条 直线 ， 而 是 两 个 对 立 的 党 派 的 相互 竞争 ， 由 中 间 少 部 分 人 连接 起 
来 ; 两 党 合作 在 第 104 届 国会 时 期 的 彻底 破裂 ， 双 方形 成 了 严实 的 自我 
防护 ， 根 据 每 个 党 浜 成 员 在 不 同时 期 对 外 部 事件 做 出 的 反映 ， 可 以 发 
现 其 党 派 分 块 内 的 内 部 神 突 等 ， 这 些 发 现 都 很 让 人 惊奇 。 
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Al 8-10: 一 个 很 有 意思 但 不 是 特别 美丽 的 两 党 制 可 视 化 〈 见 彩 图 
67) 





该 可 视 化 可 能 会 使 人 们 产生 共鸣 ， 这 也 是 其 美丽 ， 而 不 仅仅 是 有 
趣 的 原因 。 线 条 图 可 以 说 明 一 个 事实 ， 而 且 可 以 非常 清晰 地 达到 这 个 
目的 ， 但 是 它 很 少 可 以 激发 你 去 参与 探索 更 多 的 信息 。 就 像 一 个 好 的 
故事 ， 美 丽 的 可 视 化 应 该 能 够 吸引 你 ， 引 出 问题 ， 并 激励 你 去 探索 和 
发 现 。 








如 果 能 够 在 可 视 化 中 激 起 用 户 共 鸣 ， 用 户 将 会 忽略 一 些 其 他 方面 
的 瑕 竟 。 而 我 的 可 视 化 激发 了 用 户 的 一 些 共 鸣 。 





A IEE ALBA 








虽然 我 对 于 自己 的 可 视 化 图 形 最 终 的 显示 效果 很 满意 ， 事 后 反 
思 ， 还 是 有 些 方面 我 本 应 该 改 掉 。 绝 大 多 数 问题 源 于 对 数据 做 了 太 多 
的 假设 ， 我 将 在 下 一 节 介 乡 











可 视 化 的 一 个 主要 目标 是 揭示 参议 员 之 间 的 全 局 结构 ， 而 不 是 透 
露 具体 个 人 细节 。 虽 然 有 时 知道 一 个 特定 节点 代表 谁 是 有 用 的 ， 例 
如 ， 当 一 个 节点 看 起 来 是 党 派 之 间 的 中 心 “ 桥 梁 ” 或 连接 (比如 
Olympia Snowe 或 Ben Nelson) ， 或 者 偏离 任 一 党 派 “〈 如 约翰 。 N 

。 我 希望 能 够 快速 识别 这 些 “ 有 趣 ” 的 节点 ， 而 依然 保持 专注 于 
全 局 模式 。 我 采取 的 解决 方法 是 按 字 母 顺 序 给 每 个 参议 员 赋 予 一 个 标 
签 ， 然 后 在 相应 节点 上 使 用 这 些 标签 。 











虽然 这 种 方法 对 于 个 别 国会 很 有 效 ， 它 无 法 保留 不 同 会 议 之 间 的 
连贯 性 。 为 了 查看 其 中 的 原因 ， 考 虑 表 8-1， 它 显示 在 历时 11 届 的 国会 
中 被 赋予 标签 1、50 和 100 的 参议 员 。 


表 8-1: 在 对 历时 11 届 的 国会 可 视 化 中 ， 标 签 为 1、50 和 100 的 参议 员 
国会 ( 届 ) 标签 1 标签 50 标签 100 
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理想 情况 下 ， 每 个 参议 员 在 他 出 现 的 所 有 图 形 中 的 标签 应 该 是 相 
同 的 。 然 而 ， 快 速 扫 描 一 眼 以 上 这 个 表 ， 就 可 以 发 现 我 给 出 的 方法 在 
这 一 点 上 做 得 多 么 不 好 。 比 如 参议 员 Joseph Lieberman 从 1988 年 开始 
一 直 是 康涅狄格 州 的 参议 员 。 按 简单 的 字母 排序 ， 他 在 11 届 国会 可 视 
化 图 形 中 的 标签 分 别 是 50、54、59、65、66、73、76 和 77。 而 其 他 参 
议员 亦 是 如 此 ， 除 奥巴马 外 。 这 些 参议 员 绝 大 多 数 都 在 参议 院 中 任职 
多 届 ， 但 是 在 我 的 系统 中 ， 给 他 们 赋值 的 标签 却 是 非常 不 一 致 。 


更 好 的 系统 应 该 是 创建 一 个 列表 ， 代 表 在 历时 11 届 国会 中 的 所 有 
的 参议 员 ， 然 后 基于 该 列表 对 每 个 参议 员 赋 值 一 个 唯一 也。 当然 ， 其 
中 的 折衷 是 我 将 需要 100 个 以 上 标签 ， 但 是 这 一 点 是 可 以 接受 的 ， 尤 其 
是 如 果 该 列表 是 按 每 个 参议 员 的 第 一 个 选举 年 而 不 是 字母 序 排序 。 田 
一 个 解决 方式 是 创建 一 个 动态 、 交 互 的 可 视 化 ， 其 中 ( 举 个 例子 ) 每 











CSF DA AS ee As» A eg 表示 额外 的 元 数 
据 。 然 而 ， 由 于 我 是 为 了 打印 而 设计 的 可 视 化 ， 这 种 方法 对 于 我 来 说 
不 可 行 。 


HE FR E ME] 


除了 给 参议 员 打 上 标签 ， 我 希望 可 视 化 是 有 方向 的 ， 这 样 民 主 沈 
显示 在 左 侧 ， 共 和 党 显示 在 右 侧 。 按 照 既定 习俗 ， 其 思想 是 一 致 的 标 
签 可 以 给 各 种 不 同 图 表 带 来 一 致 性 。 然 而 ， 事 实证 明 由 于 Neato 布 局 算 
法 的 本 质 原 因 ， 该 策略 实施 很 困难 。 








前 面 描述 的 “ 力 导 向 ”过 程 是 揭示 隐藏 在 抽象 图 形 内 的 复杂 结构 
的 很 好 的 方式 。 然 而 ， 因 为 它 依赖 于 特定 的 随机 性 ， 它 无 法 每 次 产生 
相同 的 结果 : 虽然 总 体 结 构 是 相同 的 ， 旋 转 定向 会 有 非常 大 的 区 别 。 
举 个 例子 ， 图 8-11 最 示 了 对 一 个 简单 图 形 的 3 种 不 同 、 但 等 效 的 布局 。 


图 8-11: 对 于 相同 图 形 的 3 个 等 价 的 “ 力 导 向 ”布局 











最 后 ， 我 采取 的 办 法 是 打开 图 像 文件 ， 手 工 对 它们 进行 旋转 。 虽 
然 这 种 临时 解决 方式 达到 了 期 望 的 旋转 定向 ， 它 带 来 的 “副作用 ”是 





也 旋转 了 标签 文本 ， 使 得 整体 看 起 来 有 点 奇怪 。 图 8-12 的 原理 图 说 明 


了 其 原因 。 


初始 图 像 旋转 后 的 图 像 





图 8-12: 对 图 形 布局 算法 中 的 原始 图 进行 旋转 ， 使 得 民 主 党 在 左 
侧 ， 共 和 党 在 右 侧 ， 其 结果 是 引起 标签 上 产生 一 些 “ 副 作用 ”《 见 彩 
图 68 ) 





回想 起 来 ， 如 果 投 入 时 间 从 编程 上 解决 旋转 定向 问题 将 是 更 好 的 
策略 。 举 个 例子 ， 我 本 来 可 以 增加 一 个 步骤 来 计算 两 个 聚 类 之 间 的 质 
心 ， 然 后 计算 整个 图 形 绕 着 质心 的 旋转 角度 ， 这 样 可 以 生成 我 所 期 户 
的 旋转 定 癌 。 这 个 额外 的 步骤 在 后 面 的 运行 中 可 以 省 去 很 多 努力 ， 但 
是 在 当时 显得 有 点 矫 枉 过 正 。 








EIR 











最 后 一 个 主要 的 不 足 是 由 于 一 个 思春 的 假设 : 因为 参议 员 很 少 改 
变 觉 派 ， 可 以 假定 每 个 参议 员 最 近 的 党 派 关 系 对 于 所 有 图 形 都 适用 。 
在 我 的 可 视 化 中 ， 这 个 错误 却 显得 非常 醒目 。 





比如 ， 再 一 次 以 参议 员 Joseph Lieberman 为 例 ， 他 在 2006 年 民主 
ie IE AAR AI ZS OTR ez A Ned Lamont 后 变 成 无 党 派 。 以 下 是 他 的 


个 人 文件 信息 people. xml% H: 


<person id=’ 300067’ lastname=’ Lieberman’ firstname=’ Joseph’ +++. > 
<role startdate= 1989-01-01’ enddate=’ 1994-12- 
31’ party=’ Democrat’ ……… /> 
<role startdate= 1995-01-01’ enddate=’ 2000-12- 
31’ party=’ Democrat’ ……… {> 
<role startdate=’ 2001-01-01’ enddate=’ 2006-12- 
31’ party=’ Democrat’ ……… [> 
<role startdate= 2007-01-01’ enddate=’ 2012-12- 
31’ party=’ Independent’ ……… /> 


< /person> 


正如 你 所 看 到 的 ， 参 议员 Lieberman 在 改变 他 的 党 派 之 前 18 年 一 直 
属于 民主 党 参议 员 。 然 而 ， 该 文件 的 最 后 一 条 信息 表明 他 是 无 党 派 ， 
因此 我 在 自己 的 BTL (抽取 、 转 换 和 加 载 》 过 程 中 认为 他 是 属于 无 党 
派 。 其 结果 是 在 第 102 届 到 109 届 的 国会 可 视 化 中 ， 他 一 直 被 “错误 
Hh) 显示 成 绿 点 ， 在 一 片 “ 浩 瀚 的 ” 蓝 色 显示 的 民主 党 中 。 

















为 了 避免 这 个 问题 ， 在 设计 上 ，ETL 过 程 本 应 该 是 基于 GovTrack 网 
站 译 “提供 的 数据 的 < role> 元 素 的 范围 来 检查 党 派 。 在 旋转 定向 
问题 上 ， 这 一 点 在 当时 看 起 来 似乎 是 不 必要 的 。 但 是 事后 回想 ， 它 可 
以 作为 对 不 测 悉 的 数据 作出 “简单 假设 ”的 前 车 之 鉴 。 








[1] GovTrack 网 站 记录 美国 国会 信息 ， 详 见 
http: //www. govtrack. us/. 


BOR TE JL A CA H RR IN EPR aR AS EE, in 
能 够 使 你 在 工作 中 有 所 受益 : 





做 好 准备 ， 花 费 很 多 时 间 做 数据 整理 


当 我 发 现 GovTrack 网 站 时 ， 我 以 为 这 个 项 目 会 变 得 轻而易举 。 毕 

， 数 据 都 在 那里 了 ， 整 整齐 齐 地 以 XML 文件 格式 打包 。 然 而 ， 实 际 上 
把 这 些 原始 数据 真正 转换 成 该 项 目 可 用 的 数据 格式 需要 很 长 一 段 时 
间 。 我 估计 花 在 该 项 目 上 有 80% 的 时 间 仅 仅 是 数据 转换 一 一 抽取 我 想 要 
的 那 部 分 数据 ， 实 现 数据 库 装载 程序 和 模式 ， 编 写 脚 本 计算 数据 的 杀 
和 性 窍 阵 ， 这 些 花 费 的 时 间 都 多 于 创建 DOT 模 板 时 间 。 这 显然 是 非常 普 
过 的 现象 ， 因 此 如 果 你 发 现 自己 正 争 扎 于 处 理 项 目 中 的 数据 问题 ， 不 
要 泄气 ， 看 起 来 这 是 一 个 必 不 可 少 的 过 程 。 








尽 可 能 实现 目 动 化 


当 你 第 一 次 处 理 数据 时 ， 你 很 可 能 会 匆匆 做 出 一 个 快速 但 龌龊 的 
解决 方案 。 所 以 ， 你 写 了 很 多 shell 脚 本 、SQL 语 句 ， 可 能 还 需要 在 
Excel 上 做 一 些 操作 来 获得 你 期 望 的 结果 数据 。 如 果 你 100% 确 定 真 的 只 
使 用 一 次 数据 集 ， 这 么 做 是 合理 的 。 但 是 实际 情况 很 可 能 是 ， 如 果 你 
的 工作 是 成 功 或 有 趣 的 ， 你 很 可 能 想 回 过 头 来 做 些 修 改 ， 重 现 它 或 者 











PUSH. MERE RMON, eR CRR, AN A 
H: “我 刚才 是 运行 什么 脚本 来 计算 呢 ? ”因此 ， 即 使 你 可 能 只 是 认 
为 你 做 的 是 一 次 性 的 可 快速 解决 的 项 目 ， 也 值得 花 些 时 间 去 开发 目 动 
化 脚本 ， 并 写 一 些 最 基本 的 文档 。 将 来 你 会 因此 感谢 目 己 的 。 


仔细 想 清楚 你 将 如 何 表示 时 间 








因为 人 们 往往 是 对 事情 在 过 去 如 何 发 生 了 变化 或 者 它们 在 未 来 将 
会 是 什么 样 感 兴趣 ， 一 定 要 想 清 楚 你 将 在 可 视 化 中 如 何 表示 时 间 。 有 
时 时 间 是 明确 表示 的 ， 如 图 8-10 中 的 时 间 序列 ， 有 时 它们 是 在 背景 中 
体现 出 来 的 。 比 如 ， 在 该 项 目 中 ， 随 着 时 间 的 运动 效果 是 通过 屏 帮 上 
的 图 像 变换 来 表达 的 。 在 任何 情况 下 ， 正 如 在 电影 中 那样 ， 给 人 清晰 
的 、 通 过 时 间 推 进 的 感觉 将 会 使 你 的 作品 更 有 了 吸引 力 。 














决定 什么 时 候 才 是 “足够 好 ” 


在 前 期 花 些 时 间 整 理 数据 以 免 后 期 遇 到 一 些 很 尴 粹 的 问题 ， 虽 然 
这 一 点 是 很 重要 的 ， 知 道 什么 时 候 是 “足够 好 ”也 是 很 重要 的 。 除 非 
你 是 致力 于 一 个 真正 需要 完全 精确 性 的 系统 《比如 喷气 飞机 的 平板 显 
AN) ， 通 肖 “ 早 发 布 、 针 发布” 是 更 好 的 。 问 别人 展示 你 的 工作 ， 得 
到 他 们 的 反应 ， 看 是 否 达到 你 所 期 望 的 答复 ， 然 后 不 断 迭 代 。 








以 记者 的 方式 处 理 问题 


本 书 的 很 多 其 他 章节 都 提出 : 一 个 伟大 的 可 视 化 需要 讲述 一 个 故 
事 。 我 总 体 上 持 赞成 观点 。 然 而 ， 这 种 思想 的 本 质 是 创建 可 视 化 的 人 
们 是 故事 叙述 者 。 在 我 看 来 ， 那 个 人 残 像 戴 上 了 创造 故事 的 “ 厅 
臣 ”， 而 人 物 和 场景 适应 情节 ， 完 善 这 个 故事 。 我 认为 “记者 ”是 更 
贴切 的 比喻 ， 而 不 是 “故事 叙述 者 ”。 记 者 讲述 故事 ， 但 是 它 〈 理 想 
E) 是 一 个 客观 的 故事 一 一 记者 的 目标 是 一 点 一 点 地 揭示 现实 ， 理 清 
混乱 的 复杂 性 ， 并 试 着 把 它们 编织 成 一 个 完整 的 画面 。 最 后 ， 你 的 可 
视 化 中 的 故事 对 数据 中 基本 事实 的 “忠实 度 ” 是 真正 决定 美丽 的 根 
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Om RHA: 搜索 和 发 现 Todd 


Holloway 


搜索 和 发 现 是 信息 检索 的 两 种 方式 。 搜 索 是 一 种 众所周知 的 方 
式 ， 百 度 和 其 他 Web 搜 索引 警 都 是 很 好 的 例子 。 虽 然 搜索 引擎 也 包含 发 
现 ， 但 是 还 有 一 些 更 为 直接 的 发 现 系 统 ， 比 如 Amazon 的 商品 推荐 和 
Netflix 的 电影 推荐 。 


这 两 种 检索 系统 的 共性 之 处 在 于 引擎 背后 提供 文 撑 的 系统 可 以 非 
常 复杂 。 系 统 提供 的 结果 可 能 不 仅仅 依赖 于 查询 的 内 容 和 返回 的 结 
果 ， 而 且 依 赖 于 系统 用 户 的 集体 行为 。 举 个 例子 ， 你 在 Netflix 上 对 电 
影 进行 评价 以 及 为 电影 提供 的 具体 评价 将 会 影响 到 系统 向 其 他 用 户 推 
存 哪些 电影 ， 而 在 Amazon， 顾 客 评价 、 购 买 一 本 书 ， 甚 至 先 同 购物 车 
添加 了 一 本 书 然后 义 删 除了 它 ， 痢 会 影响 到 系统 给 其 他 用 户 的 推荐 。 
相似 地 ， 使 用 百度 时 ， 当 你 点 击 了 一 条 搜索 结果 ， 或 者 没有 点 击 东 条 
结果 ， 这 些 行为 都 会 影响 到 以 后 的 搜索 结果 。 





这 种 复杂 性 的 一 个 后 果 是 系统 行为 变 得 难以 解释 。 我 们 主要 依赖 
于 性 能 指标 来 对 检索 结果 的 成 功 或 失败 进行 量化 评估 ， 或 者 找 出 系统 
的 哪些 变化 比 其 他 的 效果 更 好 。 这 些 指标 可 以 使 系统 得 到 不 断 改 进 。 


理解 系统 行为 的 另 一 种 辅助 方法 是 使 用 信息 可 视 化 。 借 助 可 视 
化 ， 我 们 有 时 可 以 获取 单纯 根据 指标 所 无 法 获取 的 一 些 认 识 。 在 本 
章 ， 我 将 介绍 一 个 实例 ， 借 助 特定 的 可 视 化 技术 为 系统 的 动态 特性 提 
供 一 些 宏观 视角 。 我 们 接 下 来 要 分 析 的 第 一 个 系统 是 一 个 搜索 引擎 ， 
YELLOWPAGES. COM。 目 标 是 获取 该 网 站 的 用 户 查 询 行 为 的 “ 鸟 膨 图 ”， 
这 可 以 用 于 改进 系统 本 身 的 设计 。 我 们 要 查看 的 第 二 个 系统 是 根据 
“Netflix 奖 ”数据 集 构建 的 电影 推荐 ，Netflix 举 办 的 一 百 万 美元 的 
预测 模型 竞赛 最 近 刚 刚 结 束 。 该 可 视 化 可 以 帮助 我 们 理解 基于 用 户 偏 
好 的 发 现 模 型 所 存在 的 一 些 本 质问 题 。 











可 视 化 技术 


本 章 描 述 的 技术 都 是 关于 比较 相同 类 型 的 事物 项 一 一 如 第 一 个 例 
子 中 的 查询 以 及 第 二 个 例子 中 的 电影 。 其 前 提 很 简单 : 我 们 将 把 竺 比 
较 的 事物 项 放 在 页 面 上 ， 相 似 项 彼此 之 间 很 紧密 ， 而 不 相似 的 事物 项 
距离 很 远 。 这 个 前 提 假 设 是 基于 Gestalt 的 相似 度 原 则 ， 该 原则 认为 当 
两 个 事物 项 被 紧 紧 放置 在 一 起 时 ， 人 们 往往 会 认为 它们 属于 同一 个 
组 。 











因此 ， 创 建 这 些 可 视 化 的 第 一 步 是 定义 清楚 是 什么 使 得 两 个 事物 
项 之 间 相 似 和 不 相似 。 它 可 以 是 任何 方面 。 在 前 文 的 Netflix 奖 的 例子 
中 ， 我 们 可 以 将 两 部 电影 的 相似 性 定义 为 用 户 的 评分 。 使 用 用 户 评分 





来 定义 相似 度 是 很 有 道理 的 ， 但 我 们 还 可 以 选择 如 风格 、 演 员 这 样 的 
电影 属性 来 定义 相似 度 。 





一 旦 定义 了 相似 度 ， 和 需要 对 它们 进行 坐标 化 ， 把 这 些 相 似 度 值 转 
换 成 二 维 或 者 三 维 坐 标 。 有 两 种 方式 可 以 实现 坐标 化 。 第 一 种 方式 是 
使 用 一 个 公式 ， 把 高 维 空间 映射 到 二 维 或 者 三 维 空间 。 男 一 种 方式 是 
把 各 个 事物 项 看 成 图 表 的 节点 ， 相 似 的 节点 通过 边 进行 连接 。 因 而 ， 
坐标 化 就 是 试 着 把 连接 着 的 节点 放置 在 相 邻 位置， 而 把 不 连接 的 市 皮 
放置 在 不 相 邻 的 位 置 。 在 本 章 中 ， 我 们 将 使 用 后 一 种 基于 图 形 的 方 
法 ， 并 探讨 所 需要 的 特定 工具 和 算法 。 











完成 坐标 化 以 后 一 一 也 就 是 说 ， 在 给 事物 项 赋予 特定 的 坐标 值 之 
后 一 一 这 些 事物 项 的 表示 《在 后 面 两 个 例子 中 ， 采 用 的 是 简单 的 圆圈 
表示 ) 会 锐 放 置 到 坐标 系 的 相应 坐标 中 。 创 建 可 视 化 的 最 后 一 个 步 又 
包含 标签 放置 (这 一 点 相当 有 挑战 〉 以 及 做 出 各 种 各 样 的 其 他 分 析 。 


YELLOWPAGES. COM 


直到 最 近 ， 使 用 打印 版 的 电话 短 找 人 和 碍 询 服务 仍 然 司 空 见 惯 。 
其 中 的 服务 部 分 被 称 为 “黄页 ”( (Yllow Pages) 。 在 这 些 黄页 上 ， 企 
业 按 类 别 进行 分 组 并 按 字母 序 进 行 排列 。 一 切 都 很 简单 。 


YELLOWPAGES. COM《〈 见 图 9-1) ， 是 我 所 在 的 公司 AT&T 的 一 个 Web 
站 点 ， 是 一 个 现代 化 企业 搜索 引擎 ， 其 最 基本 的 目标 和 打印 版 一 致 。 
很 明显 ， 它 虽然 是 在 线 版 本 的 ， 但 并 不 是 局 限于 只 能 通过 和 打印 版 一 
样 的 方式 分 类 和 字母 序 来 组 织 数 百 万 的 企业 。 





Fined A PERSON MAPS & DIRECTIONS MOBILE & MORE MY YELLOWPAGES.COM 


Home > San Francisco > Category Search - Pizza 
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图 9-1: YELLOWPAGES. COM: 一 个 本 地 企业 搜索 引擎 〈 见 彩 图 69 ) 





事实 上， 设计 或 改进 这 种 搜索 引擎 的 部 分 工作 涉及 理解 应 该 如 何 
为 一 个 给 定 的 查询 组 织 企业 列表 ， 以 及 在 该 组 织 中 应 该 包含 哪些 企业 
特征 。 为 了 达到 这 个 目标 ， 查 看 用 户 的 行为 是 有 帮助 的 ， 因 为 该 行为 
可 以 对 我 们 的 直觉 做 出 验证 或 否定 。 


Ti As 





YELLOWPAGES. COM 保 留 了 在 网 站 上 执行 的 每 个 查询 日 志 ， 因 此 它 可 
以 使 用 这 些 数 据 来 改进 服务 。 以 下 是 2008 年 12 月 的 查询 日 志 中 词 频 最 
高 的 5 个 查询 : 








1. Restaurants (1E ) 


2. Movie theaters (电影 院 ) 


3. Pizza (EBE) 


4. Walmart[sic] (沃尔玛 ) 


5. Animal shelters (动物 收容 所 ) 





前 5 项 综合 了 “浏览 式 ” 碍 询 和 “搜索 式 ” 查 询 ， 前 者 是 人 们 在 分 
类 范围 内 进行 浏览 (如 餐馆) ， 后 者 是 人 们 搜索 特定 企业 如 沃 尔 
玛 ) 。 我 们 将 使 用 日 志 中 的 查询 作为 可 视 化 的 “事项 ”， 将 基于 用 户 
执行 这 些 碍 询 的 行为 的 相似 度 来 对 这 些 事项 进行 坐标 化 。 通 过 这 种 方 
式 ， 我 们 希望 能 够 对 系统 的 用 户 查 询 行 为 有 个 大 致 的 理解 。 











YELLOWPAGES. COM 的 查询 日 志 目 前 属于 AT&T 公 司 的 财产 。 如 果 你 
想 查 看 主流 搜索 引擎 的 查询 日 志 的 内 容 ，AOL 公 司 已 经 在 公共 网 站 上 放 





了 一 份 2006 年 的 日 志 。 通 过 百度 搜索 “AOL query log”， 就 可 以 找到 
该 文件 的 最 近 的 镜像 ， 下 载 500M 的 日 志文 件 。 


分 类 相似 度 





正如 之 前 所 述 ， 我 们 希望 可 视 化 是 基于 实际 的 用 户 行为 。 举 个 例 
子 ， 我 们 认为 ， 如 果 一 个 用 户 输入 一 个 查询 ， 如 果 该 用 户 之 前 已 经 输 
入 了 男 一 个 查询 ， 她 可 能 会 点 击 这 次 查询 结果 中 和 之 前 的 查询 结果 中 
的 相同 的 企业 页 面 ， 则 这 两 个 查询 就 是 关联 的 。 但 是 ， 数 据 太 稀 下 C 
了 ， 以 致 无 法 在 实际 中 使 用 一 一 平均 来 说 ， 企 业 集 合 的 重合 度 非常 
小 。 为 了 解决 稀 疏 性 ， 我 们 退 一 步 来 定义 查询 的 相似 性 :如果 一 个 用 
户 输 入 一 个 查询 ， 而 该 用 户 之 前 已 经 输入 了 男 一 个 查询 ， 她 可 能 会 点 
击 这 次 查询 结果 中 和 之 前 相同 分 类 的 企业 页 面 ， 则 这 两 个 查询 就 是 相 
似 的 。 




















可 视 化 作为 分 析 的 基础 





在 AT&T 应 用 研究 所 ， 我 们 构建 了 很 多 工具 来 分 析 碍 询 。 其 中 一 个 

具 是 预测 模型 ， 它 试图 确定 一 个 查询 是 否 是 为 了 参考 一 个 特定 企业 
的 信息 (如 Walgreens) 或 者 浏览 一 组 企业 信息 (如 药店 )。 我 们 可 以 
在 可 视 化 基础 上 应 用 这 些 预 测 来 获得 “搜索 式 ” 和 “浏览 式 ” 查 询 的 
分 布 的 总 体 概览 。 可 以 使 用 很 多 可 视 化 编码 来 显示 一 个 查询 属于 哪 一 
种 。 最 明显 的 一 种 ， 即 我 们 所 采取 的 方法 是 对 节点 进行 着 色 : 在 我 们 
的 可 视 化 中 ,绿色 市 点 表示 预测 认为 是 对 特定 业务 搜索 的 查询 ， 而 其 
他 查询 则 是 用 黑色 市 点 表示 。 可 能 会 存在 一 些 不 正确 的 市 把 着 色 ， 它 
们 显示 的 古 该 特定 预测 模型 中 存在 的 误差 。 


























图 9-2 用 绿色 节点 显示 “Goodwill” 和 “Salvation Army” 查 询 ， 
其 含义 是 预测 上 认为 〈 而 且 是 正确 的 ) 这 些 节点 属于 对 特定 企业 的 查 
Mjo 








F 2 r 
goodwyl _ salvation army 








Al 9-2: 在 我 们 的 可 视 化 中 ，“ 搜 索 式 ” 查 询 用 绿色 显示 〈 见 彩 图 
70) 


可 视 化 





图 9-3 显 示 了 最 终 的 可 视 化 结果 。 它 显示 了 从 2008 年 12 月 开始 查询 
频 度 最 高 的 4600 条 查询 。 当 查看 这 种 类 型 的 可 视 化 时 ， 应 该 记 住 的 是 
它 没有 坐标 轴 。 所 有 位 置 都 是 相对 的 一 一 相似 的 查询 上 毗邻， 而 不 相似 
的 查询 距离 较 远 。 每 个 圆圈 表示 一 条 查询 。 一 些 圆圈 的 上 面 标注 了 查 
询 项 。 圆圈 大 小 和 标签 大 小 都 是 基于 查询 在 日 志 中 出 现 的 次 数 。 采 用 
这 种 方式 ， 可 以 使 得 频繁 的 查询 在 该 可 视 化 中 可 以 “一 目 了 然 ”。 
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图 9-3: 在 YELLOWPAGES. COM 网 站 上 ， 查 询 频 度 最 高 的 4600 条 查询 





( 见 彩 图 71) 


查看 图 9-3， 很 容易 识别 出 该 系统 最 经 常 被 使 用 的 领域 。 
“Restaurants” (和 餐馆 ) 这 一 条 查询 “脱颖而出 ”， 而 零售 商 如 
“Walmart” (沃尔玛 ) M “Best Buy” AEX) 的 查询 也 很 频繁 。 


对 餐馆 和 零售 商 的 查询 很 频繁 可 能 不 足 为 奇 ， 因 为 YELLOWPAGES. COM 是 





一 个 企业 搜索 引擎 。 可 能 相对 难以 预测 的 是 底层 在 大 区 域 范 围 内 包含 
社区 相关 的 查询 ， 包 括 搜 索 “ 公 立 学 校 ”、“ 教 益 ” 和 “ 公 寅 ”。 


这 种 类 型 的 可 视 化 很 大 。 无 法 把 它 打印 在 一 页 纸 上 ;， 显示 它 的 最 
佳 方式 或 者 是 把 它 作为 大 海报 进行 打印 ， 或 者 作为 在 计算 机 屏幕 上 可 
缩放 的 版 本 显示 。 为 了 使 可 视 化 可 缩放 ， 可 以 把 它 加载 到 如 下 应 用 
中 ， 如 百度 地 图 、Gigapan 或 微软 的 Seadragon。 











因为 这 个 可 视 化 将 要 被 收录 到 一 本 书 中 ， 我 们 将 通过 对 一 些 特定 
方面 进行 放大 和 讨论 的 方式 来 进一步 审视 它 ， 并 获取 一 些 新 的 理解 。 


图 9-4 所 示 的 是 对 看 起 来 与 社区 较为 相关 的 企业 的 碍 询 集合 进行 放 
大 显示 。 看 到 像 该 可 视 化 这 样 对 真正 的 用 户 行为 的 描述 可 能 会 给 搜索 
引擎 工程 师 留 下 深刻 印象 ， 可 能 验证 了 他 对 系统 使 用 情况 所 持 有 的 观 
点 ， 或 者 给 他 带 来 尺 喜 ， 甚 至 是 启发 他 做 出 设计 上 的 一 些 变 动 。 
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图 9-4: 图 9-3 中 的 一 个 聚 类 的 特写 图 ( 见 彩 图 72) 


catholic. churches 





AERX 9-5 At AS A RSE TT RPA A Sf], (EE EF 
在 很 多 方面 值得 指出 。 注 意 对 GameStop 的 常见 但 不 相同 的 拼写 ;人们 
可 能 期 望 不 论 是 哪 一 种 拼写 ， 用 户 都 可 以 对 搜索 结果 做 出 相同 的 行 
为 ， 因 而 应 该 也 期 望 这 些 查 询 能 够 在 可 视 化 中 了 毗邻 显示 。 可 能 可 视 化 
中 最 有 趣 的 是 典当 行 相关 的 查询 与 书店 和 游戏 商店 相关 的 查询 的 相似 
度 。 用 户 做 出 什么 样 的 查询 和 点 击 行为 可 能 会 生成 这 种 模式 ? 
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以 帮助 我 们 提高 认识 ， 而 且 多 个 育 类 之 间 的 相似 度 也 同样 可 以 加 深 理 
解 。 图 9-6 中 存在 两 个 聚 类 ， 一 个 是 关于 零售 药店 ， 妃 一 个 是 关于 酒 
店 ， 它 们 在 可 视 化 上 毗邻 。 这 意味 着 用 户 无 论 是 搜索 药店 还 是 酒店 ， 
往往 会 点 击 相似 的 企业 。 但 是 在 打印 版 的 电话 短 中 ， 这 两 类 企业 分 别 

只 存在 于 两 种 不 同 的 分 类 内 部 ， 而 搜索 引擎 却 可 以 考虑 这 些 行 为 的 关 


联 ， 生 成 搜索 结 
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图 9-6: 两 个 毗邻 的 集群 : 药店 和 酒店 〈 见 彩 图 74) 


这 种 可 视 化 技术 的 优 缺 点 


纵 观 了 其 中 一 种 可 视 化 ， 值 得 探讨 的 是 这 种 可 视 化 技术 的 优 缺 
点 。 其 最 大 的 优点 在 于 可 扩展 ， 而 且 是 完全 基于 算法 的 。 图 9-3 的 可 视 
化 显示 了 4600 个 事物 项 ， 但 是 该 算法 可 以 扩展 到 处 理 儿 百 万 个 事物 
项 。( 显 然 ， 为 了 有 效 地 查看 儿 百 万 个 事物 项 ， 需 要 有 一 个 可 以 平移 
和 缩放 的 界面 。) 











该 可 视 化 技术 的 男 一 个 优点 在 于 它 作 为 稳定 、 全 局 的 基础 平台 ， 
可 以 显示 其 他 分 析 ， 而 且 工作 良好 。 举 个 例子 ， 我 们 使 用 绿色 和 黑色 
来 区 分 “搜索 式 ” 和 “浏览 式 ” 这 两 种 不 同 的 查询 。 我 们 可 以 很 容易 
在 该 平台 上 应 用 任意 数量 的 其 他 分 析 。 可 能 显示 提交 特定 查询 的 用 户 
的 平均 年 龄 会 很 有 意思 ， 假 设 我 们 有 这 样 的 数据 ， 或 者 有 关于 用 户 在 
输入 某 个 查询 之 后 还 会 使 用 该 系统 的 预测 。 应 用 这 样 的 预测 可 以 帮助 
我 们 对 系统 的 总 体 运 行情 况 有 个 较 全 面 的 理解 。 





这 种 可 视 化 技术 的 最 大 缺点 〈 和 对 它 的 批评 ) 是 不 支持 精确 比 
较 。 在 这 种 可 视 化 中 ， 难 以 量化 和 解释 特定 事物 项 之 间 的 关系 ， 其 他 
的 可 视 化 技术 对 于 这 种 狭义 的 分 析 则 是 更 有 效 的 。 这 种 可 视 化 技术 更 
偏 同 于 技术 ， 启 发 人 们 对 数据 集 提出 新 的 问题 ， 或 者 提示 人 们 某 些 问 
题 的 可 能 答案 ， 而 不 是 作为 具体 的 问题 答案 来 源 。 


另 一 个 明显 的 缺点 是 当前 社会 尚未 教育 人 们 应 该 如 何 解 释 这 些 可 
视 化 。 散 点 图 、 柱 状 图 、 饼 图 一 一 人 们 当然 了 解 这 些 图 形 ， 但 是 不 了 
解 大 规模 的 图 形 可 视 化 。 





图 9-7 所 示 的 一 些 有 趣 的 聚 类 说 明 的 一 个 技术 问题 是 ， 难 以 对 这 人 么 
多 的 事物 项 添加 标签 。 本 章 给 出 的 可 视 化 都 是 使 用 自动 化 标签 算法 ， 
它 对 标签 的 位 置 放置 进行 优化 来 减少 标签 之 间 的 重 骆 。 同 样 地 存在 一 
些 重 铸 还 是 难以 避免 。 也 许 随 着 技术 的 不 断 发 展 ， 创 造 性 的 新 的 解决 


方案 将 会 解决 这 个 问题 。 
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图 9-7: 一 个 标签 难以 阅读 的 聚 类 ( 见 彩 图 75) 


正如 之 前 所 述 ， 这 些 可 视 化 的 最 后 一 个 问题 是 它们 通常 涉及 从 融 
维 数据 集 降 维 成 二 维 或 三 维 数 据 集 。 在 降 维 过程 中 可 能 会 丢失 信息 ， 
因此 难以 确定 看 起 来 很 有 意思 的 分 组 方式 是 真实 地 反映 了 关于 数据 集 
的 一 些 有 趣 的 方面 ， 或 者 仅仅 是 该 过 程 中 产生 的 一 个 假象 。 





Netflix 奖 项 


早 就 存在 促使 用 户 个 性 化 定制 自己 的 Web 体 验 的 愿景 ,而且 人 们 为 
了 实现 这 个 目标 也 做 出 了 许多 努力 。 理 想 情 况 下 ， 这 种 个 性 化 定制 可 
以 促使 Web 服 务 足 够 了 解 你 的 俩 好 ， 从 而 帮助 你 查找 和 餐厅、 书籍 、 音 
乐 、 电影 和 其 他 你 感 兴趣 的 事情 。 


Netflix 公 司 是 通过 邮件 和 在 线 出 租 电 影 的 公司 ， 它 有 一 套 推 荐 系 
统 ， 尝 试 着 给 顾客 提供 合适 的 推荐 。 这 些 推荐 是 基于 顾客 评价 高 的 电 
影 以 及 具有 相似 偏好 的 顾客 的 评价 高 的 电影 。 在 2006 年 夏 ， 公 司 举 办 
一 场 竞 赛 ， 给 任何 可 以 提高 其 推荐 算法 10 个 百分点 的 参赛 者 提供 100 万 
美元 的 奖金 。 作 为 本 次 比赛 的 一 部 分 ，Netflix 发 布 了 一 个 包含 1 亿 个 
用 户 、 对 17700 部 电影 进行 评价 的 数据 集 。 该 数据 集 可 以 通过 UCI 的 机 
器 学 习 库 在 线 获取 ( (htp: //archive. ics. uci. edu/ml/) 。 





从 该 数据 集中 构建 一 个 发 现 系统 的 挑战 在 于 一 方面 数据 量 太 多 ， 
而 另 一 方 数 据 量 又 太 少 。 使 用 简单 的 技术 来 解释 这 些 数据 甚至 浏览 
它 ， 则 问题 是 数据 量 太 多 。 然 而 ， 从 做 出 准确 的 推荐 的 角度 上 看 ， 其 
包含 的 数据 比 我 们 期 望 的 要 少 。 用 户 对 电影 的 评价 的 分 布 远 远 没 有 达 
到 均匀 分 布 ， 即 很 多 用 户 只 对 很 少 的 电影 做 出 评价 ， 很 多 电影 只 有 很 
少 的 评价 。 对 于 这 些 用 户 和 电影 ， 很 难 做 出 精确 的 预测 。 











偏好 相似 性 


在 很 多 推荐 系统 中 ， 众 所 周知 的 相似 性 计算 方式 是 计算 余弦 相似 
性 。Linden、Smith 和 York(2003 年 ) 的 文章 中 对 该 技术 做 了 实用 的 介 
绍 。 








对 于 电影 ， 从 直观 上 考虑 ， 这 种 计算 方式 说 明了 如 果 用 户 对 一 部 
电影 评价 很 品 、 对 为 一 部 电影 评价 也 很 品 ， 则 这 两 部 电影 束 是 相似 
的 ; 或 者 反之 ， 如 果 用 户 对 一 部 电影 评价 很 低 、 对 男 一 部 电影 评价 也 
很 低 ， 则 这 两 部 电影 也 是 相似 的 。 








我 们 将 使 用 这 种 相似 度 衡量 方式 来 对 Netflix 奖 数据 集 的 所 有 
17700 部 电影 生成 相似 性 信息 ， 然 后 基于 该 数据 生成 坐标 转换 。 如 果 我 
们 对 于 构建 真正 的 电影 推荐 系统 感 兴趣 ， 我 们 可 以 人 简 蛙 地 推荐 和 用 户 
评价 很 蜗 的 电影 相似 的 电影 。 然 而 ， 这 里 的 目标 只 十 对 这 种 推荐 系统 
的 动态 性 有 更 深 的 理解 。 





标签 化 





YELLOWPAGES. COM 可 视 化 比 Netflix 奖 可 视 化 更 易于 添加 标签 ， 其 
原因 有 很 多 ， 包 括 其 节点 更 少 ， 标 签 更 短 ， 但 是 最 主要 的 原因 是 其 节 
点 是 均匀 分 布 的 。 虽 然 Netflix 奖 可 视 化 中 存在 很 多 聚 类 ， 绝 大 多 数 电 
影 只 存在 于 其 中 很 少量 的 聚 类 中 。 当 我 们 只 查看 那些 评价 最 多 的 电 
影 ， 这 种 差异 看 起 来 则 更 加 明显 。 


























考虑 两 种 不 同 的 添加 标签 方法 : 


”对 最 受 欢 迎 的 电影 添加 标签 ， 随 机 对 其 他 电影 进行 抽样 。 这 种 
方法 将 得 到 包含 最 受 欢 迎 的 电影 的 聚 类 ， 但 是 由 于 这 些 聚 类 的 密度 很 


高 ， 可 能 难以 阅读 这 些 标签 。 








”把 页 面 划 分 成 网 格 ， 在 每 个 网 格 节点 位 置 对 小 样本 的 节点 添加 
标签 。 这 种 方式 可 以 确保 所 有 到 类 都 包含 一 些 标签 。 


对 于 图 9-8 中 的 可 视 化 ， 使 用 第 一 种 集 略 ， 因 为 它 说 明了 电影 总 体 
和 那些 有 很 多 评价 的 电影 “用 更 大 的 圆圈 表示 〉 的 分 布 都 是 非常 不 均 
匀 的 。 然 而 ， 对 于 后 续 图 形 中 对 该 可 视 化 的 放大 展示 ， 可 使 用 第 二 种 
策略 来 增强 可 读 性 。 








图 9-8: Netflix 奖 数据 集中 对 17700 部 电影 的 可 视 化 〈 见 彩 图 76 ) 


除了 用 户 评 价 外 ，Netflix 奖 数据 集中 其 他 仅 有 的 数据 就 是 电影 包 
标题 和 发 布 日 期 。 然 而 ，Netf1ix 交 参赛 者 发 现 了 潜在 的 属性 ， 比 如 电 
影 中 的 暴力 程度 或 者 用 户 的 性 别 ， 都 是 预测 偏好 的 重要 因素 。 不 足 为 
奇 的 是 ， 有 些 聚 类 似乎 可 以 通过 这 些 属性 解释 。 然 而 ， 为 什么 其 他 从 
用 户 偏 好 生成 的 聚 类 却 更 难以 解释 ? 





我 们 将 要 查看 的 第 一 个 电影 聚 类 《〈 见 图 9-9) ,包含 如 《星际 迷 
航 》( CSar Trek)、《X 档 案 》 〈X-Files) 和 《沙丘 魔 堡 》( ne) 这 
样 的 标题 ， 看 起 来 归属 于 一 个 流派 特征 : 科幻 小 说 。《 银 河 追 缉 令 》 
( (Glaxy Quest) 也 是 科 约 小说， 但 它 是 讽刺 科幻 小 说 。 侦 探 喜剧 《 神 
RIZ) Cink) 也 属于 这 个 集合 ， 会 显得 非常 怪异 。 然 而 ， 这 是 一 个 
偏好 聚 类 ， 而 偏好 绝 不 可 能 只 通过 流派 这 个 因素 来 定义 。 这 种 不 正常 
现象 的 其 他 可 能 的 解释 是 给 《神探 阿 蒙 》 打 分 的 用 户 非 常 少 (注意 该 
聚 类 内 其 所 表示 的 节点 大 小 很 小 ) ， 因 此 把 《神探 阿 蒙 》 归 属于 这 个 
聚 类 可 能 是 个 错误 ; 也 就 是 说 ， 它 可 能 并 不 能 反映 Netflix 用 户 的 真正 
偏好 。 这 一 点 不 仅仅 是 创建 该 可 视 化 的 一 个 主要 难题 ， 也 是 Netflix 奖 
竞赛 的 难题 ， 根据 很 少量 的 已 有 用 户 评分 来 预测 用 户 的 偏好 是 非常 困 
难 的 。 
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图 9-9: 科幻 小 说 电影 聚 类 


对 其 他 聚 类 的 解释 则 更 有 挑战 性 。 考 虑 图 9-10 中 的 例子 。 可 能 
人 的 直观 感觉 是 如 《欲望 都 市 》( (Mrgaret Cho)、《 双 人 秀 》( (Te 
Man Show), CAERA) (Te Rocky Horror Picture Show) (= 
部 都 是 很 受 争议 的 喜剧 ) 可 能 会 受到 一 群 人 的 衰 扬 ， 却 受到 另 一 群 人 
的 唾骂 ， 因 此 会 看 起 来 很 混乱 。 但 是 如 果 是 由 于 这 个 因素 ， 为 什么 其 
他 类 似 的 幽默 类 型 的 电影 没有 包含 在 这 个 聚 类 中 ? 为 什么 这 几 部 电影 
之 间 的 关系 这 么 强 ， 使 得 它们 能 够 形成 一 个 聚 类 而 不 是 分 布 在 其 他 聚 
类 中 ? 
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图 9-10: 具有 相似 幽默 风格 的 电影 聚 类 
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好 是 有 意义 的 。 如 果 我 们 能 够 获取 到 这 些 电影 的 其 他 属性 ， 或 者 获取 
到 对 这 些 电影 评价 很 高 的 用 户 信息 ， 哪 一 种 信息 可 能 会 帮助 我 们 解释 
在 这 个 聚 类 中 显示 的 用 户 偶 好 ? 
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图 9-11: “适合 家 庭 的 ”电影 聚 类 





解释 图 9-12 中 的 聚 类 的 其 中 一 种 方法 可 能 是 专注 于 一 个 事实 ， 即 
这 个 聚 类 中 的 所 有 电影 都 是 票房 很 高 的 动作 片 。 即 使 有 人 认为 《麻风 
代言 人 》( (Te Devil’ s Advocate) 并 不 是 一 部 动作 片 ， 其 主演 奇 洛 








里 维 斯 (〈Kanu Reeves) 出 现在 很 多 这 样 的 票房 很 高 的 动作 片 中 ， 
此 预期 他 所 主演 的 其 他 电影 可 能 也 会 吸引 观众 。 







wem ect 
From Dusk Till Dawn 
furrbdic on the Bronu 


Wild TREG So the valley 


í te _ Payback ‘ i 
= 4 : mefinakEantasy: The Spirits Within Varsity Blues 
b The Devil's Advocate 
t The Transporter 
Romeo Must Die 





图 9-12: 动作 片 电影 聚 类 


图 9-13 中 显示 的 聚 类 更 大 ， 而 且 较 难 特征 化 ， 但 是 它 还 是 很 好 地 
反映 了 用 户 偏好 。 绝 大 多 数 这 类 电影 “让 人 感觉 良好 ”; 绝 大 多 数 是 
爱情 故事 。 
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图 9-13: “让 人 感觉 恨 好 ”的 电影 聚 类 


之 前 提 到 的 一 个 问题 是 ， 系 统 提供 的 电影 推荐 可 能 对 于 那些 尚未 
对 很 多 电影 做 出 评分 的 用 户 还 不 够 好 ， 因 为 系统 还 不 知道 这 些 用 户 的 
喜好 。 我 们 称 之 为 冷 启动 ( (cld start) 问题 。 实 际 上 ， 对 于 那些 对 很 
多 电影 做 出 评价 的 用 户 ， 如 果 这 些 评价 是 分 布 在 很 多 不 同 的 场景 中 ， 
那 也 会 存在 这 个 问题 。 举 个 例子 ， 假 设 有 个 用 户 不 是 真正 喜欢 “让 人 
感觉 良好 ” 聚 类 中 的 电影 ， 但 是 为 了 和 女 朋 友 约 会 ， 开 始 租 这 些 电 
影 ， 然 后 基于 每 次 约会 的 进展 来 对 电影 进行 评价 。 如 果 他 开始 租 景 
自己 看 ， 为 了 发 现 他 真正 喜欢 的 电影 ， 他 可 能 没有 对 足够 多 的 电影 做 
出 评价 来 反映 其 自己 的 个 人 偏好 。 更 广泛 地 说 ,我们 可 以 把 这 个 问题 
F Be Be at Ma A PE 





























创建 自己 的 可 视 化 


你 可 能 有 兴趣 以 自己 最 喜欢 的 数据 集 来 创建 和 本 章 给 出 的 类 似 的 
可 视 化 。 存 在 很 多 工具 可 以 用 于 达到 这 个 目的 。 我 们 首先 使 用 Per1 来 
解析 数据 ， 计 算 相似 性 (当然 可 以 使 用 其 他 语言 来 蔡 代 Per1) ; 然后 把 
这 些 相似 性 结果 传 给 Shawn Martin 提 供 的 免费 软件 “DrL 软 件 ” 
( (htp: //www. cs. sandia. gov/~smartin/software. html)。DrL 使 用 
之 前 提 到 的 图 形 方法 ， 把 这 些 相 似 性 转换 成 每 个 节点 坐标 。DrL 的 优势 
在 于 它 可 以 递归 执行 ， 因 此 坐标 可 以 反映 更 高 层次 的 组 织 。 另 一 个 可 
以 取代 DrL 的 很 好 的 软件 是 GraphViz (http: //www. graphviz. org) 。 








完成 以 上 处 理 后 ， 我 们 继续 使 用 Per1l 把 坐标 和 其 他 额外 信息 进行 
归并 ， 如 节点 的 尺寸 、 颜 色 和 标签 。 最 后 ， 把 处 理 完成 的 数据 集 传 递 
给 商业 绘图 库 yFiles (http: //www. yworks. com/en/index. html), 
yFiles 对 标签 进行 布局 ， 把 整个 可 视 化 泻 染 成 一 个 png 文 件 。yFiles 是 
一 个 非常 有 用 的 包 ， 但 是 你 可 以 略 过 这 一 步 ， 比 如 直接 使 用 Per1 创 建 
EPS 文 件 ， 其 代价 是 没有 对 标签 进行 布局 。 


结束 语 


本 章 给 出 的 两 个 例子 是 可 视 化 技术 的 两 个 非常 简单 的 应 用 。 如 果 
你 对 查看 这 种 类 型 的 可 视 化 感 兴趣 ， 在 线 的 “地 点 && 空 间 ”( (Paces 
& Spaces) 展览 网 站 上 包含 很 多 
( (htp: //www. scimaps. org/maps/browse/) ， 它 是 印第安 纳 大 学 的 
Katy Borner 教 授 组 织 的 大 规模 的 可 视 化 集合 。 





值得 一 提 的 是 ， 这 种 可 视 化 类 型 目前 仍然 是 一 个 很 活跃 的 研究 领 
域 。 最 近 的 前 言 发 展 专注 于 对 该 技术 进行 扩展 ， 纳 入 一 些 约束 条 件 。 
其 中 一 个 可 以 从 增加 约束 条 件 中 受益 的 领域 是 系统 生物 和 学， 人 们 可 能 
想 要 显示 蛋白 质 之 间 的 相互 作用 。 其 相似 性 计算 可 能 是 基于 相互 作用 
的 集 日 质 的 数量 。 需 要 的 约束 条 件 可 能 是 在 一 个 细胞 核 内 的 某 些 集 白 
质 ， 对 其 以 菏 个 特定 圆 形 区 域 的 坐标 显示 ; 而 对 于 细胞 质 内 的 重 日 
质 ， 则 以 更 大 范围 的 贺 形 区 域 坐标 显示 ， 并 且 不 会 和 细胞 核 内 的 重 白 
质 重 登 。 同 样 ， 可 以 限制 膜 香 白 在 一 个 圆圈 上 显示 ， 而 同时 还 是 按 相 
似 度 分 组 。 像 本 章 讨论 的 搜索 和 发 现 系 统 的 可 视 化 ， 这 种 可 视 化 可 以 
提供 全 局 画面 ， 有 助 于 局 发 思考 或 者 验证 人 们 当前 的 直觉 。 这 种 可 视 
化 技术 在 其 他 领域 的 可 能 应 用 方式 ， 作 为 练习 留 给 读者 思考 。 
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第 10 半 ”从 社交 网 络 可 视 化 的 混杂 之 中 寻 
找 美 丽 的 感悟 Adam Perer 


我 的 目标 始终 是 把 符号 并 列 、 组 合成 为 统一 、 一 致 的 整体 来 解释 
物质 。 


一 一 Mark Lombardi，2000 年 


Mark Lombardi ||) 可 能 堪 称 完美 的 网 络 布局 算法 。 作 为 一 位 致力 
于 揭露 经 济 和 政治 丑闻 的 错综复杂 的 网 络 信息 的 艺术 家 ， 他 努力 绘制 
节点 没有 重合 、 边 很 少 交 义 ， 而 且 连 接 平滑 且 弯 曲 的 网 络 〈 见 图 10- 
1) 。 以 计算 方式 创建 的 社交 网 络 的 可 视 化 很 少 能 够 达到 这 种 程度 的 优 
雅 和 感性 。 虽 然 高 级 的 计算 布局 算法 可 能 是 以 弹力 和 推动 力 的 物理 模 
型 为 基础 ， 但 是 它们 很 少 能 够 像 Lombardi 的 绘图 那样 突出 模式 和 趋 
势 。 本 章 详细 描述 我 为 了 使 用 户 能 够 使 用 可 视 化 和 统计 的 集成 交互 技 
术 来 深入 研究 混杂 的 社交 网 络 所 做 的 一 些 探索 。 








社交 网 络 可 视 化 


现代 社会 数字 信息 的 增长 开辟 了 数据 分 析 的 黄金 时 代 。 丰 晤 的 数 
据 促 使 人 们 为 了 解释 科学 、 社 会 、 文 化 和 经 济 现 象 ， 做 出 了 更 频繁 的 
数据 分 析 探 索 。 虽 然 能 够 使 用 数据 很 重要 ， 但 仅仅 做 到 这 一 点 还 是 不 





识别 游离 点 和 发 现 差异 。 现 代 的 数 
的 帮助 将 无 法 处 理 和 使 用 数据 。 


够 的 ， 我 们 还 需要 能 够 理解 模式 、ii 
据 库 太 大 了 ， 人 们 如 果 没 有 计算 工具 











Al 10-1; 艺术 家 Mark Lombardi 手 绘 的 一 个 社交 网 络 的 例子 (“世界 
金融 公司 ， 迈 阿 密 ， 佛 罗 里 达州 ，1970 年 一 1979 年 〈 第 6 版 ) ” 
(1999) ; 纽约 布鲁克 林 PIER0GI 艺 术 馆 授权 使 用 ， 见 彩 图 77) 

和 处 理 能 力 远 远 高 于 


最 强大 的 感官 接收 器 一 一 眼睛 ， 其 “带宽 ” 
奶 可 视 化 是 充分 利用 人 类 


员 觉 、 上 听觉 、 味 觉 和 触觉 接收 器 。 因 此 ， 信 


uo JL ~ 


最 强大 的 感知 系统 的 强大 能 力 的 有 效 方式 。 然 而 ， 选 择 有 效 的 展现 方 
式 具 有 很 大 的 挑战 性 ， 因 而 不 是 所 有 的 信息 可 视 化 都 可 以 达到 相同 的 
效果 。 不 是 所 有 的 信息 可 视 化 都 是 为 了 突出 对 于 分 析 师 的 任务 而 言 重 
要 的 模式 、 差 异 和 游离 点 ， 更 进一步 说 ， 也 不 是 所 有 的 信息 可 视 化 都 
古 为 了 “迫使 我 们 去 注意 自己 从 未 期 望 看 到 的 事物 ”( (Tkey 

LOTTO: a 
































数据 分 析 中 一 个 渐 趋 普遍 的 趋势 是 将 相互 关联 的 数据 作为 网 络 进 
行 分 析 。 网 络 分 析 不 仅仅 是 查看 数据 的 属性 ， 还 会 关注 数据 和 最 终 产 
出 之 间 的 结构 关联 。 我 的 研究 重点 正 是 理解 这 些 网 络 ， 因 为 在 分 析 师 
看 来 ， 网 络 是 热门 的 、 新 兴 的 且 本 质 上 具有 挑战 性 的 。 网 络 总 是 难以 
进行 可 视 化 和 导航 ， 而 且 最 大 的 问题 是 很 难 找到 与 任务 相关 的 模式 。 
尽管 有 这 些 挑 战 ， 网 络 分 析 依 然 深 受 社会 学 家 、 情 报 分 析 师 、 生 物 学 
家 、 通 信 理 论 家 、 文 献 研究 员 、 食 物 网 生态 学 家 以 及 很 多 其 他 专业 人 
士 的 青睐 。 从 最 畅销 的 书籍 ， 如 Malcolm Gladwell 的 《The Tipping 
Point》( (Bck Bay 从 书 ) , Albert-Laszl6 Barabdsi 的 《Linked》 

( (Pume 出 版 社 ) 和 Duncan Watts 的 《Six Degrees) ( Nrton 出 版 
社 ) ， 可 以 看 出 社会 网 络 分 析 (〔SA) 的 流行 度 日 趋 增长 ， 同 时 也 因为 
这 些 书籍 的 畅销 而 进一步 促进 了 它 的 流行 。 无 数 的 分 析 师 希望 能 够 分 
析 他 们 的 网 络 数据 ， 但 是 只 有 很 少 成 熟 且 广泛 应 用 的 工具 和 技术 能 够 
达到 这 一 目的 。 














网 络 分 析 师 注重 研究 不 同 因素 之 间 的 关系 而 非 具 体 因素 ; 这些 因 
素 可 以 解释 社会 、 文 化 和 经 济 现象 ， 但 它们 之 间 如 何 联 系 和 它们 本 身 
一 样 重要 。 在 出 现 社交 网 络 分 析 观 点 之 前 ， 很 多 分 析 师 主要 注重 于 内 
在 的 个 别 属性 和 被 忽略 的 社会 行为 ， 也 就 是 说 ， 注 重 于 个 别 因 素 如 何 
交互 以 及 它们 之 间 的 影响 ( (Feeman 2004) 。 借 助 来 自 社交 网 络 社区 
的 更 为 新 型 的 技术 ， 分 析 师 可 以 发 现 结构 中 的 模式 ， 见 证 资源 或 消息 
流 在 网 络 中 的 传输 ， 理 解 个 别 因 素 如 何 受 到 周围 环境 的 影响 。 








在 实践 中 ， 社 交 网 络 可 视 化 是 混杂 的 ， 尤 其 当 网 络 规模 很 大 时 。 
可 视 化 在 充分 利用 人 类 强大 的 感知 能 力 上 很 有 用 ， 但 是 混乱 的 展现 方 
式 、 边 重 登 以 及 不 合法 的 节点 标签 通常 会 削弱 可 视 化 探索 的 价值 。 在 
这 些 情况 下 ， 交 互 技术 对 于 理解 这 些 复杂 的 静态 可 视 化 是 有 用 的 。 内 
在 属性 是 存在 于 数据 集中 的 属性 ， 比 如 性 别 、 种 族 、 薪 水 或 受 教育 程 
度 。 通 过 节点 和 边 的 内 在 属性 进行 缩放 、 平 移 或 过 小 等 交互 可 以 简化 
复杂 的 可 视 化 。 不 幸 的 是 ， 对 于 复杂 的 网 络 ， 这 些 技术 所 能 达到 的 可 
能 也 就 仅 此 而 已 ， 无 法 挖掘 出 整个 故事 ， 尤 其 是 在 小 世界 网 络 中 密度 
高 的 连接 很 少 会 没有 交叉 ( (vn Ham 2004) 。 内 在 属性 缺乏 对 社交 网 
络 分 析 师 而 言 非常 重要 的 结构 化 拓扑 信息 。 我 们 的 主要 贡献 是 通过 反 
映 用 户 任 务 的 计算 属性 来 增强 信息 可 视 化 。 计 算 属性 可 以 通过 以 下 几 
种 策略 来 计算 : 相关 的 重要 性 统计 指标 〔 如 度 或 距离 中 心 的 程度 )， 

聚 类 算法 或 者 数据 挖掘 。 














充分 利用 计算 属性 的 处 理 方式 对 于 社交 网 络 分 析 师 尤其 有 价值 ， 
因为 他 们 也 开始 意识 到 内 在 属性 并 不 能 揭示 整个 故事 。 实 际 上 ， 社 交 
网 络 分析 师 采取 的 方法 是 在 探索 时 忽略 内 在 属性 ， 避 人 免 个 人 偏好 ， 而 
只 注重 数据 的 结构 化 属性 。 对 于 社交 网 络 分 析 师 ， 计 算 属 性 可 以 通过 
一 组 丰富 的 统计 方法 来 计算 (从 社会 学 到 图 形 理论 ) ， 因 而 可 以 使 分 
析 师 大 量 挖掘 他 们 所 在 网 络 的 有 趣 的 特征 。 分 析 师 可 能 会 寻找 紧密 结 
合 的 个 人 社区 群体 ， 或 者 是 他 们 当中 的 信息 传递 员 ， 或 者 是 处 于 中 心 
地 位 的 强大 个 体 ， 存 在 很 多 找到 这 些 特征 的 复杂 的 算法 。 

















大 部 分 可 视 化 工具 的 目的 是 把 复杂 的 数据 映 财 到 易于 理解 的 视图 
中 。 然 而 ， 很 少 有 工具 可 以 通过 突出 代表 数据 重要 特征 的 计算 属性 来 
帮助 用 户 进行 可 视 化 。 用 户 可 以 在 统计 和 可 视 化 软件 包 中 来 回 切换 使 
用 ， 但 是 这 种 做 法 可 能 会 导致 分 析 过 程 中 数据 流 很 低 效 ， 从 而 阻碍 人 
们 新 的 发 现 。 


SocialAction 是 Ben Shneiderman 和 我 一 起 创建 的 用 于 探索 这 些 问 
题 的 软件 工具 ( (htp: //www. cs. umd. edu/hcil/socialaction). iit 
集成 统计 和 可 视 化 技术 ， 该 工具 可 以 即时 提供 有 意义 的 计算 属性 ， 帮 
助 用 户 快 速 利用 二 者 的 优点 。SocialAction 和 入 了 统计 算法 来 探测 重 
要 的 个 体 、 关 系 和 聚 类 。 该 工具 不 是 以 经 典 的 表格 方式 来 表示 统计 结 
果 ， 而 是 集成 在 网 络 可 视 化 中 ， 该 可 视 化 能 够 提供 有 意义 的 节点 和 边 
的 计算 属性 。 通 过 计算 属性 ， 用 户 可 以 很 轻松 地 动态 过 滤 节 点 和 边 并 








找到 有 趣 的 数据 点 。 这 些 可 视 化 简化 了 统计 结果 ， 有 助 于 增进 理解 和 
发 现 如 分 布 、 模 式 、 趋 势 、 差 异 和 游离 点 的 特征 。 这 些 统计 简化 了 对 
有 时 混杂 的 可 视 化 的 理解 ， 允 许 用 户 关 注 统计 上 有 意义 的 节点 和 边 。 

在 一 个 一 致 的 接口 内 的 这 些 丰 是 的 交互 可 以 提供 流 式 的 、 高 效 的 可 视 
化 分 析 系 统 ， 它 使 得 用 户 可 以 从 混乱 的 软件 包 的 管理 之 中 解放 出 来 ， 
从 而 可 以 将 精力 集中 于 深入 考察 数据 并 得 出 推论 。 我 在 后 面 将 带 你 

起 来 看 一 看 丰富 的 统计 和 可 视 化 交互 ， 但 在 此 之 前 我 们 将 首先 探讨 其 
之 所 以 重要 的 原因 。 











[1] Mark Lombardi E XH 的 概念 派 艺术 家 ， 其 错综复杂 的 艺术 作品 主 
要 展现 在 《Mark Lombardi:Global Networks》 中 。 


谁 想 要 对 社交 网 络 进 行 可 视 化 


我 在 学 术 界 和 工业 界 的 社交 网 络 分 析 领 域 的 研究 工作 都 表明 : 在 
试图 解释 社交 网 络 时 ， 纯 粹 的 统计 分 析 是 最 常用 的 技术 。 虽 然 网 络 可 
视 化 在 学 术 性 文章 和 报告 中 很 第 见 ， 但 它们 通常 是 在 分 析 完 成 后 为 了 
和 用 户 交 流 而 创建 的 ， 并 不 一 定 是 在 探索 性 分 析 过 程 中 所 使 用 的 。 


在 社交 网 络 中 使 用 可 视 化 图 像 的 历史 在 “Visualizing Social 
Networks” ( (Feeman 2000) 中 有 介绍 ， 其 中 包含 了 Jacob Moreno 在 
1934 年 描述 的 最 早 的 社交 网 络 可 视 化 例子 。 在 图 10-2 中 ， 三 角形 表示 
的 节点 是 男孩 ， 圆 圈 表 示 的 节点 是 女孩 。 在 不 知道 教室 中 每 个 人 的 详 
细 信 息 的 情况 下 ， 人 们 也 可 以 很 快 地 从 该 可 视 化 图 形 中 了 解 到 : 1) 男 
孩 和 男孩 交 朋友 ; 2) 女孩 和 女孩 交 朋友 ; 3) 某 个 勇敢 的 男孩 选择 一 
个 女孩 作为 朋友 (虽然 不 是 相互 的 ， 即 这 个 女孩 并 没有 选择 该 男孩 作 
为 朋友 ) ; 4) 有 两 个 女孩 单独 组 成 一 个 群 组 。 该 可 视 化 图 形 典 型 地 说 
明了 一 个 合理 的 、 结 构 良 好 的 网 络 可 以 很 好 地 解释 个 体 的 社交 结构 。 








随 着 每 个 关系 的 数据 维度 的 增加 ， 社 交 网 络 数据 会 变 得 极端 复 
杂 。 熟 悉 网 络 可 视 化 的 人 可 能 会 很 同情 那些 负责 统计 的 从 业 人 员 ， 因 
为 当 节 点 和 边 的 数目 很 多 时 ， 设 计 一 个 有 用 的 网 络 可 视 化 非常 困难 。 
大 规模 的 网 络 可 视 化 通常 是 节点 和 边 的 交叉 集合 ， 而 且 几 乎 无 法 到 达 


“NetViz Nirvana” ( (Bn Shneiderman 创 造 的 一 个 术语 ， 用 于 描述 能 








够 看 到 每 个 节点 以 及 可 以 通过 它 的 边 到 达 所 有 其 他 的 节点 ) 。 网 络 可 
视 化 可 能 会 提供 聚 类 和 游离 点 信息 ， 但 是 总 体 而 言 ， 人 们 很 难 从 这 些 
复杂 的 可 视 化 中 得 出 更 深入 的 感悟 认 知 。 





图 10-2: 最 早 的 社交 网 络 可 视 化 之 一 : Jacob Moreno 制 作 的 四 年 级 
学 生 中 的 好 友 选 择 ( (Mreno 1934) 


第 一 个 原因 是 很 难 使 用 单纯 的 统计 方法 找到 模式 和 趋势 。 第 二 个 
原因 是 网 络 可 视 化 往往 只 是 提供 很 少 的 见解 ， 通 常 几 乎 无 法 提供 任何 
的 实用 功能 。 因 此 ， 一 名 社交 网 络 的 研究 人 员 应 该 做 哪些 事情 ?以 紧 
密 结合 的 方式 同时 利用 可 视 化 和 统计 技术 ， 从 而 创造 出 美丽 实用 的 可 
视 化 作品 。SocialAction 的 设计 即 是 秉 着 这 个 目标 为 中 心 。 





SocialAction 的 设计 


结构 分 析 师 提出 了 很 多 衡量 方法 来 从 统计 的 角度 评估 社交 网 络 。 
然而 ， 却 没有 一 种 系统 的 方式 可 以 用 来 对 这 种 网 络 进行 解释 ， 因 为 这 
些 方式 在 不 同 网 络 中 会 有 不 同 的 涵义 。 这 是 有 问题 的 ， 因 为 分 析 师 希 
望 确保 他 们 没有 忽略 了 网 络 中 一 些 重要 方面 。 为 了 使 探索 更 加 简单 ， 
我 采访 了 几 名 社交 网 络 分 析 师 并 查看 了 社交 网 络 期 刊 ， 把 最 常用 的 措 
施 汇总 到 了 一 张 表 格 中 。 然 后 ， 我 把 这 些 措 施 组 织 成 了 6 个 以 用 户 为 中 
心 的 任务 : 总 体 概 览 、 节 点 排序 、 边 排序 、 节 点 绘制 、 社 区 发 现 以 及 
边 的 类 型 。 后 文中 我 将 详细 描述 每 一 项 任务 以 及 它们 的 关联 特征 。 在 
此 之 前 ， 我 们 首先 需要 明确 一 下 这 个 过 程 的 主要 目标 。 





Shneiderman 的 可 视 化 信息 搜索 絮语 一 一 “总 体 概 览 为 先 ， 缩 放 和 
过 滤 次 之 ， 最 后 按 需 提 供 细节 ”( (Sneiderman 1996) 一 一 可 以 作为 
社交 网 络 分 析 师 组 织 复 杂 任 务 的 一 个 指南 。 分 析 师 首先 需要 分 析 清 楚 
网 络 的 总 体 概览 ， 此 时 需要 同时 利用 统计 技术 和 可 视 化 技术 《〈 见 图 10- 
3a) 。 整 个 网 络 的 衡量 标准 ， 如 密度 、 直 径 和 组 件 个 数 ， 是 通过 有 加 
布局 图 进行 计算 和 展示 的 。 该 可 视 化 能 够 使 用 户 对 网 络 的 结构 、 网 络 
中 包含 的 聚 类 以 及 网 络 的 深度 有 一 个 认识 ， 而 统计 提供 了 用 于 确认 和 
量化 视觉 发 现 的 一 种 方式 。 如 果 网 络 规模 很 小 或 者 分 析 师 只 对 网 络 的 
拓扑 结构 感 兴趣 ， 完 成 到 这 个 步骤 就 够 了 。 








一 个 更 专业 的 分 析 师 会 希望 对 网 络 的 各 个 元 素 有 更 深入 的 了 解 。 
用 户 可 以 应 用 在 社交 网 络 分 析 中 常见 的 统计 指标 来 衡量 节点 《也 称 为 
顶点 ) 和 边 〈 也 称 为 连接 ) 。 举 个 例子 ， 分 析 师 可 以 通过 “上 度 ”( 连 
接 最 多 的 节点 ) 、 中 心 度 控制 点 ) 、 紧 密 性 (布点 位 置 可 以 很 好 地 
接收 信息 ) 以 及 一 些 其 他 指标 来 对 节点 进行 排序 。 用 户 选 择 完 一 个 指 
标 后 ， 按 照 这 个 指标 对 节点 进行 排序 之 后 输出 到 一 个 表格 中 。 
SocialAction 会 根据 这 个 表格 的 数据 给 每 个 节点 指定 一 种 颜色 ， 从 绿 
E GHR HRE GEP) 再 到 红色 (排名 高 的 ) 。 这 种 方 
式 有 助 于 阐明 每 个 节点 在 整体 之 中 所 处 的 位 置 。 与 此 同时 ， 会 对 整个 
可 视 化 网 络 进行 更 新 ， 对 每 个 节点 进行 着 色 。 用 户 现 在 可 以 查看 整个 
网 络 来 确定 是 否 存在 重要 的 节点 〈 见 图 10-3a) 。 





为 了 获取 更 深入 的 认 知 ，SocialAction 支 持 用 户 继续 进行 可 视 化 
音 息 搜索 咒语 的 第 二 步 一 一 “缩放 和 过 滤 ”。 这 是 大 多 数 其 他 社交 网 
络 分 析 工 具 包 为 “束手无策 ”的 用 户 提供 的 一 个 方案 。 平 移 和 拖 放 实 
际 上 无 法 真正 地 帮助 用 户 找 到 信息 : 对 网 络 中 的 某 一 块 进行 缩放 会 使 
用 户 无 法 了 解 全 局 结构 ， 密 集 网 络 可 能 永远 都 纠缠 在 一 起 而 无 法 解 
开 。SocialAction 人 允许 用 户 通 过 自己 控制 的 统计 来 驱动 导航 。 用 户 可 
以 使 用 范围 滚动 条 ， 忽 略 不 满足 他 们 的 标准 的 网 络 区 域 。 通 过 对 属性 
或 者 重要 性 指标 进行 过 滤 ， 并 人 允许 用 户 专注 于 他 们 所 关心 的 节点 类 
型 ， 而 同时 简化 了 可 视 化 ， 如 图 10-3b 所 示 。 

















虽然 分 析 师 通 过 统计 方法 和 可 视 化 展现 可 以 了 解 全 局 趋势 ， 但 是 
他 们 的 分 析 通 常 是 不 完整 的 ， 没 有 理解 单个 节点 所 代表 的 涵义 。 和 大 
多 数 其 他 网 络 可 视 化 不 同 ， 在 SocialAction 中 通常 包含 标签 。 字 体 大 
小 和 长 度 控 制 条 允许 分 析 师 决定 他 们 的 重点 。 这 与 第 三 步 中 的 可 视 化 
信息 搜索 咒语 〈“ 按 需 提 供 细节 ”) 一 致 ， 用 户 可 以 选择 一 个 节点 来 
查看 其 所 有 的 属性 。 在 节点 之 上 悬 停 也 突出 了 每 个 节点 的 边 和 邻居 节 
点 ， 达 到 了 找到 感 兴趣 节点 的 NetViz Nirvana 效 果 ， 如 图 10-3c 所 示 。 
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Understanding the details 


图 10-3: a) 该 界面 显示 的 统计 部 分 允许 用 户 选择 统计 算法 ， 从 而 找 
到 重要 的 节点 、 检 测 聚 类 等 。 而 可 视 化 部 分 是 和 统计 结合 起 来 的 。 根 
据 节点 排序 对 它们 进行 着 色 ， 红 色 节 点 是 统计 指标 最 重要 的 节点 。b) 
使 用 统计 算法 查找 控制 点 。 用 户 使 用 动态 滚动 条 过 滤 不 重要 的 节点 ， 

这 种 方法 简化 了 可 视 化 ， 同 时 能 维持 网 络 中 节点 的 位 置 和 结构 。c) 标 
签 通常 被 赋予 权重 优先 级 ， 这 样 用 户 可 以 理解 数据 代表 什么 。 当 用 户 
选择 一 个 节点 时 ， 会 突出 显示 其 邻居 节点 ， 并 在 左 侧 显示 其 详细 信息 
( 见 彩 图 78) 


另外 ， 举 个 较 轻 松 的 例子 ， 我 们 一 起 来 看 看 我 在 Facebook 上 的 个 
人 社交 网 络 。 如 果 我 使 用 标准 的 网 络 布局 算法 对 连接 进行 可 视 化 ， 就 
可 以 得 到 一 个 Jackson Pollack 图 一 一 它 看 起 来 一 团 糟 ;虽然 其 中 包含 
了 一 些 很 有 意思 的 地 方 ， 但 是 它 显然 缺乏 Lombardi 图 所 具备 的 优雅 
性 。 然 而 ， 如 果 我 利用 一 些 统计 方法 在 这 个 例子 中 是 设计 一 个 聚 类 
算法 ， 用 于 检测 社区 ) ， 我 就 可 以 得 到 合理 得 多 的 输出 结果 。 原 本 是 
一 组 交叉 的 节点 和 边 ， 而 现在 却 可 以 成 为 用 于 把 社交 网 络 分 组 成 有 意 
义 的 分 类 。 我 可 以 看 到 高 中 朋友 、 大 学 朋友 、 研 究 生 朋友 、 在 微软 的 
同事 等 的 聚 类 《〈 见 图 10-4) 。 因 为 有 了 网 络 布局 算法 ， 一 个 原本 没有 
任何 意义 的 图 像 开 始 变 得 美 








图 10-4: 我 的 Facebook 社 交 网 络 可 视 化 。 基 于 网 络 聚 类 算法 ， 发 现 
了 代表 我 生活 中 的 不 同方 面 的 7 个 有 意义 的 朋友 社区 。 如 果 没 有 聚 类 ， 
该 网 络 就 会 由 于 有 太 多 边 而 交叉 在 一 起 ， 导 致 无 法 提供 任何 意义 〈 见 


彩 图 79) 
总 之 ， 把 统计 和 可 视 化 技术 结合 在 一 起 可 以 给 出 一 套 优雅 的 数据 
分 析 探 索 的 解决 方案 。 可 视 化 简化 了 统计 结果 ， 改 进 了 对 模式 和 全 局 
趋势 的 理解 。 而 统计 学 又 简化 了 对 偶尔 混杂 的 可 视 化 的 理解 ， 人 允许 用 
户 专注 于 统计 指标 上 重要 的 节点 和 边 。 


采 例 研究 ， 从 混乱 到 美丽 





最 终 ， 是 什么 使 网 络 可 视 化 变 得 美丽 ? 18 世 纪 的 苏格兰 哲学 
David Hume (1742) 写 道 : 





美 不 是 存在 于 事物 本 和 吴 的 品质 中 。 她 只 存在 于 对 美 进行 思考 的 人 
们 的 心目 之 中 ; 而 且 每 个 人 看 到 的 美 都 是 不 同 的 。 


然而 ，Hume 对 美的 这 个 定义 受到 一 些 人 的 质疑 。 苏 格 兰 副 教授 
Henry Home (Kamesét £) 认为 美 是 可 以 被 分 解 为 一 个 理性 的 规则 系 
统 。 


当 谈 到 对 基础 数据 的 可 视 化 时 ， 我 同意 Kames 萎 士 的 观点 。 对 于 一 
个 成 功 的 可 视 化 ， 其 成 功 的 衡量 标准 是 ， 是 否 能 够 帮助 人 们 产生 对 事 
物 的 认 知 。 分 析 师 可 能 是 验证 自己 的 直觉 、 检 测 异 常 或 游离 点 ， 或 者 
EMEEN. Virginia Tech 大 学 的 教授 Chris North 把 认 知 特征 化 
为 复杂 、 有 深度 、 定 性 、 出 乎 意料 和 相关 的 发 现 。 而 对 于 有 用 的 特征 
化 ， 给 人 的 印 象 是 衡量 认 知 就 像 衡 量 美 丽 一 样 复杂 。 传 统 的 基于 实验 
室 的 对 条 件 进 行 控制 的 环境 已 经 被 证 实 对 于 很 多 科学 试验 是 有 效 的 ， 
但 是 它们 是 否 对 于 认 知 也 有 效 ? 举 个 例子 ， 如 果 我 发 明了 新 的 展示 或 
输入 小 工具 ， 对 条 件 进行 控制 的 环境 可 以 通过 衡量 学 习 时 间 、 任 务 执 
行 时 间或 者 错误 概率 来 比较 两 种 或 者 更 多 不 同 的 处 理 方 式 。 典 型 的 实 


























验 将 会 涉及 20 一 60 个 参与 者 ， 每 人 进行 10 一 30 分 钟 的 训练 ， 所 有 参与 
者 在 1 一 3 小 时 的 时 间 段 内 都 完成 相同 的 2 一 20 个 任务 。 可 以 使 用 统计 方 
法 如 { 测 试 和 ANOVA 方 法 检查 在 均值 上 的 显著 区 别 。 这 些 汇 总 统计 是 有 
效 的 ， 尤 其 当 不 同 用 户 间 存在 较 小 的 兰 异 时 。 








然而 ， 如 果 有 人 把 认 知 分 解 成 一 组 可 衡量 的 任务 ， 那 结果 会 怎么 
样 呢 ?第 一 个 挑战 是 对 于 规模 巨大 的 问题 ， 分 析 师 通常 需要 工作 儿 天 
或 者 几 周 才能 完成 数据 的 分 析 ， 而 且 他 们 的 工作 过 程 几 乎 无 法 在 基于 
实验 室 的 条 件 可 控制 的 环境 下 复 现 〈 即 使 在 需要 的 时 间 段 内 可 以 有 大 
量 的 教授 参与 ) 。 第 二 个 挑战 是 探索 性 任务 在 本 质 上 就 是 无 法 明确 定 
义 的 ， 因 此 告诉 用 户 应 该 完成 哪些 任务 与 探索 这 一 任务 本 质 上 就 是 冲 
突 的 。 第 三 个 挑战 是 每 个 用 户 都 有 自己 独特 的 技巧 和 经 验 ， 这 会 造成 
执行 结果 差别 很 大 ， 它 会 削弱 汇总 统计 的 有 效 性 。 在 控制 条 件 的 研究 
中 ， 异 常 的 表现 被 认为 是 不 注 的 游离 点 ， 但 是 在 案例 研究 中 ， 这 些 特 
殊 事 件 是 有 助 于 产 出 成 果 的 关键 事件 ， 它 会 为 发 现 提供 认 知 基础 。 第 
四 个 挑战 是 我 希望 该 工具 具备 更 多 的 量化 分 析 功 能 ， 我 希望 听 到 用 户 
遇 到 的 问题 和 挫折 ， 以 及 他 们 那 激动 人 心 的 成 功 故 事 。 由 于 这 些 原 
因 ， 我 采取 了 结构 化 的 、 可 复制 的 案例 研究 方法 来 确定 SocialAction 
是 否 能 够 生成 美丽 的 可 视 化 。 

















以 下 各 节 概 述 了 一 些 真正 的 分 析 师 使 用 SocialAction 对 目 己 的 数 
据 进 行 可 视 化 的 一 些 案例 研究 。 为 了 表达 对 Mark Lombardi 的 敬仰 ， 我 
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参议 院 表 决 的 社交 网 络 


国会 分 析 师 对 于 研究 美国 参议 院 的 各 个 党 小 很 感 兴趣 。 例 如 ， 
《 国 会 季刊 》 会 对 每 个 选票 计数 ， 计 算 多 数 氏 主 党 反对 共和 和 党 的 选 
票 ， 然 后 计算 每 个 参议 员 选 票 文 持 其 政党 的 比例 。 这 个 指标 可 以 有 效 
地 追踪 不 同年 份 每 个 参议 员 对 其 所 在 政党 的 忠诚 度 ， 但 是 它 无 法 揭示 
整体 格局 的 全 局 模式 。 








Chris Wilson 当 时 是 《美国 新 闻 与 世界 报道 》 的 副 主 编 ， 对 2007 
年 美国 参议 员 的 选票 模式 感 兴 趣 。Chris Wi1son 开 始 揭示 数据 集中 参 
议员 模式 ， 包 括 战 略 、 两 大 党 派 和 地 理 联盟 。 他 投入 了 很 大 努力 来 控 
掘 公共 数据 库 中 的 投票 数据 ， 但 是 通过 正常 的 分 析 方 法 无 法 找到 任何 
不 同 的 模式 。Wilson 相 信 社 交 网 络 分 析 能 够 产生 其 探索 的 结果 。 数 据 
包含 2007 年 最 初 6 个 月 每 个 参议 员 的 选票 结果 ， 从 民主党 开始 ， 他 们 以 
多 出 一 席 的 投票 得 到 议院 的 控制 权 。 可 以 依据 选票 的 共 现 度 (〈c- 
occurrences) 来 推导 社交 网 络 。 


Wilson 构 建 了 一 个 这 样 的 网 络 ， 当 一 个 参议 员 和 另 一 个 参议 员 在 
一 项 决议 上 的 投票 立场 一 致 ， 就 用 一 条 边 把 它们 连接 起 来 。 每 条 边 的 
强度 是 基于 参议 员 之 间 的 相同 投票 来 计算 的 〈 比 如 ， 奥 巴 马 和 希拉 里 
相同 投票 数 为 203， 而 奥巴马 和 布衣 巴 死 的 相同 投票 数 只 有 59) 。 这 样 





会 产生 一 个 非常 密集 的 网 络 ， 因 为 存在 一 些 无 可 争议 的 决议 ， 所 有 参 
议员 都 投 赞成 票 〈 比 如 ， 决 议 RC-20， 一 个 表彰 “地 铁 英 雄 ”Wesley 
Autrey 的 英雄 行为 的 法 案 ) 。 所 有 参议 员 都 连接 在 一 起 ， 结 果 生 成 一 
个 看 起 来 巨大 的 、 复 杂 的 网 络 可 视 化 。SocialAction 人 允许 用 户 根据 重 
要 性 指标 对 边 进行 排序 。Wilson 使 用 该 特征 ， 通 过 动态 过 滤 掉 重要 性 
排序 低 的 关系 来 比较 网 络 可 视 化 。 举 个 例子 ， 图 10-5 显 示 了 闵 值 为 
“180 个 选票 ”《〈 约 60% 的 选票 相同 ) 。 即 使 对 于 这 个 非常 低 的 圆 值 ， 
党 派 间 的 关系 还 是 很 强 ， 很 可 能 选票 和 民 主 党 一 致 的 共和 党 参议 员 
(如 Collins、Snowe、Spector 和 Smith) 也 非常 明显 。 这 个 可 视 化 说 明 
了 在 这 个 特殊 的 参议 院 中 ， 虽 然 两 个 政党 都 有 很 强 的 党 派 性 ， 共 和 党 
的 党 派 性 低 于 民主党 的 。 








男 一 个 意 想不到 的 发 现 是 随 着 闹 值 增加 ， 民 主 尝 似乎 比 共和 党 更 
紧密 团结 ， 因 为 图 中 所 示 ， 民 主 党 内 的 连接 更 密集 ， 颜 色 更 深 。 虽 然 
每 条 边 都 有 些 透 明 ， 但 是 氏 主 党 内 由 于 边 的 不 断 重 登 产生 了 颜色 很 深 
的 一 团 ， 而 共和 和 党 内 则 相对 稀 玻 得 多 。 凡 1son 认 为 该 交互 可 以 生动 地 
说 明 民 主 党 在 保持 党 内 一 致 的 决策 会 议 中 的 成 功 ， 它 是 评审 立法 战略 
的 一 个 重要 方面 。 统 计 和 可 视 化 的 结合 使 得 该 及 现成 为 可 能 








图 10-5: 该 可 视 化 说 明了 在 2007 年 美国 参议 员 的 投票 模式 。 红 色 表 








示 的 共和 党 显示 在 右 侧 ， 蓝 色 表 示 的 民主 党 显示 在 左 侧 ， 另 外 还 有 两 

个 独立 派 。 连 接 表 示 投 票 记录 的 相似 性 ， 揭 示 了 2007 年 民主 党 的 党 派 

忠诚 度 更 高 。4 位 来 自 东 北 各 州 的 共和 党 通常 投票 支持 民主 党 。 麦 凯 恩 

和 布朗 巴克 一 起 参加 总 统 竞 选 ， 但 是 他 们 的 相同 选票 数 不 足 以 把 他 们 
连接 起 来 ( 见 彩 图 80) 











为 了 确定 个 别 政客 的 投票 模式 ，Wilson 使 用 了 SocialAction 的 统 
计 重 要 性 指标 。 对 所 有 节点 进行 排序 、 对 排序 结果 进行 可 视 化 ， 以 及 
过 滤 掉 不 重要 的 节点 ， 这 样 就 可 以 带 来 很 多 新 的 发 现 。Wi1son 说 ， 举 
个 例子 ， 介 数 中 心性 ( (btweenness centrality, BC) |!) 统计 之 间 是 
“量化 衡量 参议 院 的 重心 的 很 好 的 方式 ”。 从 SocialAction 中 可 以 明 
显 地 看 出 只 有 少数 参议 员 是 作为 同事 之 间 连 接 的 中 心 。 凡 1son 还 可 以 
使 用 SocialAction 的 交互 聚 类 算法 来 “发 现 民主党 之 间 在 地 理 上 的 联 











嚼 ”。 这 些 发 现 只 是 在 中 1son 对 SocialAction 数 据 进 行 分 析 之 前 所 未 
的 一 些 见 解 的 几 个 例子 。 





SocialAction 数 据 所 揭示 的 一 些 发 现 给 Wilson 留 下 了 很 深 的 印 
象 。 统 计 和 可 视 化 的 紧密 连接 帮助 他 发 现 并 把 调查 结果 在 《美国 新 闻 
与 世界 报道 》 杂 志和 国会 中 报导 ， 且 使 得 人 们 可 以 易于 理解 。 
SocialAction 受 到 了 很 多 来 自 国内 的 关注 ， 因 此 《美国 新 闻 与 世界 报 
道 》 杂 志 能 够 复制 其 一 些 功能 ， 为 它 的 在 线 读者 服务 。 完 成 该 案例 研 
完 后 ，Wilson 就 去 了 《S$late》 杂 志 ， 但 他 依然 使 用 SocialAction 进 行 
调查 报告 。 对 SocialAction 的 分 析 还 使 得 美国 棒球 大 联盟 
( Chtp: //www. slate. com/id/2180392) 的 类 固 醇 使 用 者 的 社交 网 络 
分 析 增 加 了 交互 特征 ， 而 且 后 期 将 会 有 更 多 的 计划 。 











[1] 在 网 络 分 析 中 ， 存 在 4 种 广泛 使 用 的 中 心性 指标 : degree 
centrality. betweenness、 closenessf#lleigenvector centrality. 
如 想 要 了 解 更 多 ， 可 以 访问 

http: //en. wikipedia. org/wiki/Centrality. 
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MER Hi EAR i DE FEC CSART) 的 国家 协会 是 美国 国土 安 
全 中 心 。START 有 一 个 世界 性 的 研究 团队 ， 其 宗旨 是 “致力 于 及 时 提供 
指导 如 何 粉 碎 恐 怖 分 子 网 络 ， 减 少 恐 怖 主义 的 发 生 ， 加 强 美国 社会 在 
恐怖 威胁 面前 的 应 变 能 力 。” 该 协会 的 一 名 成 员 是 James 
Hendrickson， 他 是 研究 犯罪 学 的 博士 生 ， 对 分 析 “ 全 球 圣战 ” 

( (Gobal Jihad) 的 社交 网 络 感 兴趣 。 


以 往 的 研究 已 经 指出 了 激进 化 对 于 奴 怖 组 织 的 维持 和 宣传 的 重要 
性 。 虽 然 人 们 已 经 从 心理 学 角度 很 好 地 描述 了 激进 化 过 程 ， 
Hendrickson 认 为 关于 慌 怖 主义 的 团体 动态 性 无 法 确切 地 衡量 规模 、 范 
围 和 群体 关系 的 动态 性 。 他 提出 对 “全 球 圣战 ”的 成 员 关 系 的 紧密 程 
度 和 类 型 进行 系统 地 比 对 ， 以 评估 他 们 是 否 可 能 参与 恐怖 袭击 。Marc 
Sageman 是 START 的 一 个 访问 学 者 ， 在 为 其 后 来 出 版 的 畅销 书 
(Understanding Terror Networks》“【〔 宾 夕 法 尼 亚 大 学 出 版 社 〉 做 调 
查 研究 时 ， 收 集 了 参与 圣战 的 350 多 个 恐怖 分 子 的 数据 库 。 
Hendrickson 计 划 对 这 些 数据 进行 更 新 并 正式 应 用 社交 网 络 分 析 ， 并 作 
为 其 博士 论文 的 一 部 分 。 





Sageman 数 据 库 对 每 个 恕 怖 嫌疑 分 子 都 包含 30 多 个 变量 。 这 些 变 量 
表示 不 同 的 关系 ， 包 括 朋 友 、 家 庭 成 员 和 教育 合作 关系 。Hendrickson 
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始 使 用 UCINET 工 具 进 行 分 析 ， 可 以 对 其 中 的 一 些 假设 进行 分 析 。 然 
而 ， 他 相信 UCINET 不 利于 探索 和 生成 新 的 假设 。 最 初 ，Hendrickson 对 
于 使 用 可 视 化 技术 来 分 析 表 示 怀 疑 。 他 更 喜欢 量化 证 明 统计 的 意义 ， 
而 不 是 依赖 于 人 们 对 图 像 的 主观 判断 。 然 而 ， 他 说 对 SocialAction 的 
可 视 化 统计 减少 了 他 的 这 种 担忧 。 


特别 地 ，SocialAction 的 多 样 性 特征 有 利于 Hendrickson 的 探索 。 
SocialAction 人 允许 用 户 分 析 不 同 的 关系 类 型 ， 而 不 会 强迫 用 户 下 载 新 
的 数据 集 。 可 视 化 显示 了 选择 的 关系 之 间 的 边 连接 ， 但 是 节点 的 位 置 
是 保持 稳定 的 ， 这 样 有 利于 理解 。 同 时 ， 统 计 结 果 也 自动 基于 新 选 定 
的 结构 进行 重新 计算 。 举 个 例子 ， 图 10-6a 只 选择 “圣战 者 ”之 间 的 关 
系 。《〈 和 密集 图 10-3a 相 比 ， 该 图 显示 了 关系 类 型 。) 这 里 的 节点 是 通 
过 出 度 和 入 度 来 排序 的 ， 因 此 红色 节点 表示 其 朋友 最 多 。“ 圣 战 者 ” 
Osama Bin Laden 和 Mohamed Atta〔 因 参与 9% 11 事 件 ， 已 经 为 广 为 人 
知 ) 排名 最 高 。 然 而 ， 当 涉及 宗教 关系 时 ， 出 现 了 不 同 的 “圣战 者 ” 
核心 人 物 ; 如 图 10-6b 所 示 。 
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图 10-6: “全 球 圣战 ”社交 网 络 的 多 样 性 特征 的 演示 。a) 显示 了 朋 
友 关 系 网 络 ， 其 中 bin Laden 的 知名 度 最 高 。b) 显示 了 宗教 关系 ， 提 





供 了 对 悉 怖 组 织 的 不 同 的 可 视 化 展示 方式 ( 见 彩 图 81) 


在 分 析 了 节点 的 统计 属性 之 后 ，Hendrickson 开 始 对 了 解 个 人 属性 
感 兴趣 。 举 个 例子 ， 他 对 于 回答 如 下 这 样 的 问题 感 兴趣 : “个 人 的 社 
会 经 济 地 位 或 教育 水 平 是 否 影响 其 在 恐怖 主义 网 络 中 的 地 位 ? ” 当 
然 ， 社 交 网 络 数据 不 允许 做 因果 推导 ， 但 是 它 可 能 会 显示 相关 性 。 如 
SocialAction 中 的 统计 排序 ， 用 户 可 以 基于 属性 进行 排序 。 
Hendrickson 过 滤 掉 没有 大 学 学 位 、 宗 教 背景 或 工程 专业 的 个 人 ， 然 后 
对 结果 进行 分 析 。 节 点 属性 、 统 计 过 滤 和 绘图 的 组 合 简化 了 其 定制 的 
工作 流 。Hendrickson 评 论说 如 果 不 是 因为 可 以 便捷 地 对 SocialAction 
进行 探索 ， 他 可 能 无 法 如 此 自由 地 思考 。 这 些 分 析 启 发 Hendrickson 去 
思考 一 些 新 的 、 尚 未 实现 的 属性 来 测试 其 他 假设 。 他 目前 正在 对 
Sageman 数 据 库 进行 升级 ， 添 加 新 的 属性 ， 这 样 他 可 以 通过 可 视 化 和 统 
计 方 式 寻找 SocialAction 中 的 模式 。 











Hendrickson 的 使 用 SocialAction 的 经 验 总 结 给 他 的 论文 带 来 了 新 
的 灵感 。 虽 然 他 在 研究 该 案例 很 久之 前 就 对 数据 集 进行 访问 ， 并 通过 
其 他 SNA 软 件 进行 分 析 ，SocialAction 提 供 的 统计 和 可 视 化 相 结合 的 方 
式 允 许 采 用 新 的 、 有 趣 的 方式 来 探索 。 因 此 ，START 中 心 有 兴 趣 将 
SocialAction 作 为 默认 的 网 络 分 析 工 具 ， 供 那些 希望 访问 其 数据 库 的 
内 部 和 外 部 用 户 使 用 。 














START 中 心 提供 的 SocialAction 的 男 一 个 用 途 是 查看 随 着 时 间 推 移 
的 网 络 。 在 他 们 的 全 球 恐 怖 主义 分 子 网 络 中 ， 节 点 可 以 通过 参与 铠 怖 
袭击 的 两 个 人 是 否 在 同一 地 区 、 使 用 相同 武器 或 来 自 相 同 地 区 进行 连 
接 。 连 接 的 边 还 可 以 有 时间 特征 。 举 个 例子 ， 一 条 边 可 以 表示 某 个 年 
份 的 恐怖 袭击 。 使 用 的 边 的 类 型 取决 于 该 分 析 师 想 要 回答 什么 类 型 的 
问题 。 除 了 网 络 图 以 外 ， 用 户 可 以 看 到 一 个 堆栈 图 ， 如 图 10-7 所 示 。 
每 个 节点 通过 一 条 边 表示 ， 每 一 列表 示 一 种 边 类 型 。 每 个 列 的 节点 密 
度 表示 节点 在 该 类 型 的 边 的 网 络 中 的 排序 。 节 点 颜色 是 基于 其 在 所 有 
边 类 型 的 总 体 排序 来 确定 的 。 














在 图 10-7 中 显示 了 两 个 堆栈 直方 图 ， 它 表示 仆 怖 分 子 网 络 随 着 时 
间 推 移 的 演变 。 这 种 特殊 的 网 络 有 两 种 类 型 的 节点 : 人 灵 ′ 怖 组 织 和 他 们 
组 织 的 进行 么 怖 袭击 的 国家 。 国 家 节 扣 按 字母 序 排列 ， 如 图 10-7a 的 堆 
栈 图 ， 而 所 有 的 恐怖 组 织 都 出 现在 图 10-7b 中 。 每 个 年 份 的 节点 深度 是 
基于 节点 在 网 络 中 的 出 入 度 。 节 点 是 根据 它们 的 出 入 度 来 着 色 的 《〈 红 
色 表 示 出 入 度 很 高 ， 绿 色 表 示 很 低 ) ， 在 高 峰 年 份 时 添加 标签 (在 
1992 年 有 一 个 明显 的 恐怖 袭击 局 峰 〉， 。 从 该 图 中 可 以 解释 各 种 趋势 ， 
比如 意大利 在 前 些 年 有 很 多 不 同 的 恐怖 组 织 袭 击 ， 而 印度 在 后 面 的 几 
年 达到 恐怖 袭击 高 峰 。 




















由 于 仆 怖 组 织 的 数量 要 远 远 大 于 国家 ， 图 10-7b 有 一 些 难以 理解 。 
然而 ， 这 些 可 视 化 是 交互 的 ， 而 且 用 户 可 以 通过 名 字 对 它们 进行 过 


滤 。 因 此 ， 如 果 一 个 分 析 师 输入 “Armenia” 这 个 单词 ， 只 有 包含 该 词 
的 恐怖 组 织 节 点 才 会 被 现实 (比如 “Armenian Secret Army for the 
Liberation of Armenia” (为 亚美尼亚 解放 的 亚美尼亚 秘密 军 ) ， 

“Justice Commandos for the Armenian Genocide” (为 亚美尼亚 种 


族 灭 绝 的 正义 突击 队 ) ) 。 





图 10-7: 突出 两 个 演化 网 络 的 时 间 趋 势 的 堆栈 图 。a) wa SEACH 
点 的 演化 ，b) 显示 芍 怖 组 织 市 点 的 演化 〈 见 彩 图 82) 


2007 年 ， 图 10-7 所 示 的 时 间 可 视 化 在 纽约 科学 展览 馆 展 示 ， 作 为 
网 络 动态 可 视 化 竞赛 的 一 部 分 
( (htp: //vw. indiana. edu/O7netsci/) 。 我 将 引用 一 个 突出 了 
SocialAction 的 某 些 目 标的 评语 来 结束 本 章 ， 也 许 它 正 是 道 出 了 创建 
可 视 化 之 美的 本 质 内 涵 : 


网 络 是 最 佳 的 阅读 ， 如 果 它 们 不 仅 “ 技 术 上 准确 ”、 视 觉 上 吸引 
人 ， 而 且 采 用 了 一 种 泻 染 方 式 ， 为 读者 创建 了 一 种 景观 。 这 种 泻 染 方 
式 给 外 行 的 观众 架 起 了 一 座 桥 染 ， 带 领 他 们 进入 专业 领域 。 “数据 领 
域 之 旅 ” 变 得 如 此 让 人 等 服 ， 它 们 可 能 很 快 就 会 出 现在 你 附近 的 旅行 
社 的 特定 目的 地 。Perer 的 可 视 化 效果 为 我 们 展现 了 无 比 生动 的 您 怖 分 
子 网 络 。 对 恐怖 主义 的 分 析 给 人 们 带 来 思维 上 的 乐趣 和 视觉 上 的 舒适 
能 是 揭示 翁 怖 本 质 的 最 佳 方 式 一 一 分 析 它 ， 而 不 被 它 吓 晓 住 。 最 
后 ， 其 可 视 化 效果 还 来 了 期 望 更 合理 的 处 理 方式 ， 这 和 恐怖 主义 试图 
灌输 给 入 们 的 刚好 相反 。 
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—Ingo Günther 
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第 11 章 ”美丽 的 历史 : 对 维基 百科 可 视 
化 MartinWattenberg 和 FernandaViégas 


在 维基 百科 的 最 初 几 年 ， 我 们 创建 了 一 些 可 视 化 来 说 明 在 线 百 科 
全 书 如 何 运作 。 本 章 将 带 你 重 温 我 们 的 创建 过 程 : 从 最 初 的 草图 设计 
开始 ， 到 解决 方案 的 实践 直至 科学 论文 的 发 表 。 在 这 个 过 程 中 ， 你 将 
领略 到 :在 所 有 步 又 中 使 用 真实 数据 工作 的 重要 性 ， 初始 阶段 使 用 粗 
糙 、 原 始 的 可 视 化 的 好 处 ， 最 后 一 点 ， 发 现 可 视 化 只 是 一 个 庞大 的 分 
析 系 统 中 的 一 个 环节 。 本 章 所 讲述 的 故事 还 说 明了 从 感知 某 个 领域 有 
可 能 可 以 从 可 视 化 中 受益 ， 到 确定 可 视 化 应 该 做 到 什么 程度 ， 直 觉 能 
够 给 成 功 的 可 视 化 项 目 带 来 指导 作用 。 




















描述 分 组 编辑 


故事 起 始 于 2003 年 。 我 们 两 个 人 在 IBM 的 协同 用 户 体验 研究 实验 室 
工作 ， 该 实验 室 研 究 人 们 如 何 一 起 在 线 工作 。 我 们 发 现在 互联 网 上 正 
在 兴起 一 些 新 的 协作 模式 ， 于 是 想 对 它们 进行 研究 。 我 们 有 很 多 选 
择 ， 那 时 正 值 “Web 2.0” 刚 刚 开 始 兴起 ， 而 维基 百科 更 是 让 我 们 格外 
着 迷 。 





2003 年 ， 也 就 是 在 线 百 科 全 书 诞生 两 年 ， 很 多 人 还 不 知道 这 个 网 
站 ， 而 那些 知道 它 的 人 却 对 这 种 开放 的 编辑 模式 持 严重 怀疑 的 态度 。 
我 们 目 己 也 抱 有 一 定 的 怀疑 ， 但 是 发 现 很 多 文章 都 很 有 意思 且 很 有 
用 。 到 底 发 生 了 什么 ?这 样 随意 的 过 程 怎么 能 够 产生 高 质量 的 产品 ? 
除了 这 些 最 初 的 好 奇 ， 这 些 困 惑 感 往往 是 一 种 “丰富 ”的 研究 领域 的 
标志 。 我 们 决定 进行 调研 。 维 基 百 科 上 的 文章 为 何 能 够 拥有 这 么 高 的 
品质 ? 为 什么 我 们 没有 在 维基 百科 上 看 到 存在 于 很 多 在 线 社区 中 的 着 
狂 、 上 患 苇 和 幼稚 的 行为 ? 




















数据 


为 了 回答 这 些 问题 ， 我 们 需要 有 更 多 的 了 解 。 第 一 步 是 找到 原始 
数据 《正如 在 我 们 的 任何 一 个 可 视 化 项 目 中 所 做 的 ) 。 对 于 维基 百 
科 ， 其 数据 并 不 是 数据 库 中 的 一 个 数值 表 ， 而 是 由 各 种 版 本 的 文档 和 
编辑 历史 组 成 的 一 个 集合 。 维 基 百 科 创 始 人 最 初 做 出 的 一 个 瑞明 的 决 
全 是 为 每 个 页 面 给 公众 保留 一 个 完整 的 版 本 历史 。 正 如 我 们 最 终 所 认 
识 到 的 ， 它 对 于 维基 百科 的 适应 能 力 有 着 至 关 重 要 的 影响 一 一 但 是 随 
着 我 们 展开 调查 ， 主 要 感觉 还 是 为 可 以 使 用 这 些 数 据 而 感到 非常 
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据 开 始 变 得 让 人 困惑 。 数 据 库 中 存在 由 于 数据 过 于 丰富 带 来 的 一 丝 
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对 于 一 个 普通 读者 ， 维 基 百 科 仅仅 是 一 个 庞大 的 文章 集合 ， 和 传 
统 的 百科 全 书 很 相似 。 但 是 在 维基 百科 的 内 部 ， 其 结构 是 复杂 的 。 因 
为 大 多 数 人 现在 知道 ， 每 个 页 面 上 有 一 个 链接 ， 读 者 可 以 通过 该 链接 
编辑 文本 。 另 外 两 个 受到 关注 较 少 的 链接 被 标记 为 关于 讨论 和 历史 。 
点 击 前 一 个 链接 会 进入 对 话 页 面 ， 读 者 和 编辑 可 以 在 该 页 面 中 探讨 一 
篇 文章 。 这 些 页 面 内 容 丰 富 ， 从 关于 页 面 内 容 的 讨论 到 寻求 家 庭 作业 
帮助 ， 表 示 的 是 维基 百科 的 “ 非 内 容 ” 页 面 。 然 而 ， 到 页 面 的 编辑 历 
史 的 那个 链接 马上 引起 了 我 们 的 兴趣 。 








编辑 历史 ( 见 图 11-1， ， 包含 了 指向 所 有 前 期 版 本 的 完整 文本 的 
链接 的 列表 ， 同 时 提供 了 关于 作者 的 信息 、 编 辑 时 间 以 及 评论 。 评 论 
是 可 选 的 ， 它 是 给 作者 一 个 机 会 来 解释 本 次 编辑 的 目的 ， 但 是 编辑 时 
间 和 作者 这 两 个 信息 是 自动 写 到 日 志 中 的 。 如 果 某 个 编辑 没有 登录 到 
系统 ， 则 记录 该 用 户 的 IP 地 址 来 取代 其 用 户 名 。 








维基 百科 的 编辑 历史 在 2003 年 已 经 很 大 了 ， 而 到 今天 则 更 是 达到 
了 巨大 的 地 步 。 当 然 ， 不 同文 章 所 做 的 编辑 次 数 很 不 相同 。 当 我 们 最 
初 开 始 梳理 时 ， 关 于 “Microso ft” 的 那 篇 文章 共有 198 个 版 本 (总 共 
是 6. 3MB 的 文本 ) ， 而 关于 “Cat” 的 那 篇 文章 却 只 有 54 个 版 本 。 最 开 
始 ， 我 们 写 了 一 个 程序 直接 从 该 网 站 上 下 载 编辑 历史 。 但 是 ， 我 们 很 
快意 识 到 这 是 一 种 很 不 友好 的 方式 ， 因 为 它 会 给 维基 百科 的 服务 器 带 








来 压力 ， 因 而 ， 我 们 使 用 了 维基 百科 网 上 免费 提供 的 一 份 大 文件 。 如 
果 你 想 对 其 中 的 任何 数据 进行 可 视 化 ， 最 好 的 方式 就 是 自己 下 载 一 份 
该 文件 快照 的 最 新 版 本 H 。 
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图 11-1: 维基 百科 上 关于 “Chocolate” 条 目的 讨论 页 面 : 该 页 面 列 


出 了 给 文章 所 做 的 每 一 个 修改 ， 包 括 谁 做 的 编辑 ， 什 么 时 候 做 的 等 
[1] 参考 http: //en. wikipedia. org/wiki/Wikipedia:Snapshots. 


Fr Seat: 对 编辑 历史 进行 可 视 化 





维基 百科 可 以 显示 儿 组 不 同 版 本 的 差别 ， 突 出 所 增加 和 删除 的 文 
字 ， 但 是 我 们 希望 能 够 看 到 一 篇 文章 随 着 时 间 推 移 的 所 有 编辑 的 总 体 
概览 。 为 了 达到 这 个 目的 ， 我 们 引入 了 一 种 新 的 称 为 “历史 流 ” 

( Chstory flow) 的 可 视 化 技术 。 





即使 我 们 手中 有 数据 ， 我 们 也 无 法 直接 开始 编写 图 形 代 码 。 我 们 
需要 自己 计算 出 相 邻 的 文章 之 间 的 差别 。 找 出 两 篇 文章 的 差异 出 现 的 
位 置 以 及 内 容 间 的 具体 区 别 ， 这 看 起 来 像 个 日 第 的 运作 程序 ， 类 似 于 
普通 用 户 使 用 的 应 用 程序 Microsoft Word 以 及 开发 者 们 使 用 的 类 似 版 
本 控制 软件 这 样 的 开发 者 工具 。 但 是 这 种 做 法 实际 上 比 看 起 来 更 灵活 
一 些 ， 虽 然 〈 可 能 也 正 因为 ) 这 个 问题 已 经 被 人 们 研究 了 很 长 时 间 ， 
最 终 发 现 不 存在 最 佳 的 方式 来 实现 这 个 功能 











目前 的 挑战 在 于 不 存在 唯一 的 茶 种 方式 能 够 描述 文本 之 间 的 区 
别 。 举 个 例子 ， 考 虑 以 下 两 个 句子 : 


66 A 


行动 迅速 的 标 色 狐狸 跳 过 了 大 柱子 (〈Te quick brown fox 


jumped over the big post). ” 


“KANE WIEBKE faz ( (Te big brown fox jumped 


over the clay pots). ” 


大 多 数 算法 能 够 告诉 你 和 第 一 个 句子 相 比 ， 在 第 二 个 句子 中 ， 单 
词 quick〔 迅 速 的 ) 被 删除 了 ， 而 单词 clay“〈 资 ) 是 新 增 的 。 但 是 单词 
“KR” We? 它 是 否 是 在 一 个 地 方 被 插入 了 而 在 另 一 个 地 方 删 除了 ， 或 
者 只 是 简单 地 从 结尾 移 到 开头 ? 类 似 地 ， 单 词 post〈 柱 子 ) 是 否 是 被 
删 掉 并 由 单词 pots〈 壶 ) 代替 ， 或 者 “post” 这 个 单词 的 字母 序 被 重 
新 组 合成 了 “pots”? 





不 同 的 解释 在 逻辑 上 都 是 一 致 的 ， 因 此 目标 是 选择 一 个 在 特定 上 
下 文中 有 意义 的 算法 。 对 我 们 而 言 ， 我 们 认为 编辑 可 能 改变 一 块 文本 
位 置 一 一 把 一 个 单词 或 一 个 句子 从 文本 的 一 个 地 方 移动 到 另 一 个 地 方 
一 一 但 是 不 太 可 能 通过 改变 字母 位 置 来 改变 个 别 单词 。 因 此 ， 我 们 选 
择 Paul Heckel 提 出 的 算法 ， 虽 然 该 算法 把 单词 作为 原子 单元 进行 处 理 
上 ， 它 使 我 们 能 够 追踪 大 段落 的 位 置 变换 。 该 算法 的 输出 是 两 个 序列 
之 间 的 一 组 对 应 ， 其 形式 是 “文件 A 中 的 第 5 个 单词 和 文件 B 中 的 第 127 
个 单词 对 应 。” 














Heckel 的 算法 实现 很 简单 ， 我 们 很 快 就 一 切 准备 就 绪 并 开始 分 
析 。 对 于 每 一 篇 文章 ， 我 们 有 每 个 版 本 的 文本 ， 还 有 不 同 版 本 之 间 的 
“对 应 ”关系 。 但 是 应 该 如 何 对 不 同 版 本 进行 展示 ?首先 ， 因 为 这 是 
基于 时 间 的 数据 ， 使 用 x 轴 表示 次 序 是 有 意义 的 ， 把 第 一 个 版 本 放 在 左 
边 ， 第 二 个 版 本 放 在 右边 等 。 这 种 方式 适用 于 碍 看 一 篇 文章 的 编辑 历 
史 ， 因 为 文档 中 每 个 位 置 都 像 一 条 “河流 ”上 的 不 同 “ 满 流 ”。 刚 开 























始 ，x 轴 只 是 表示 序列 化 信息 ， 每 个 版 本 是 一 个 坐标 点 ， 不 同 坐 标点 之 
间 的 像素 数 相同 ， 然 后 我 们 加 入 一 个 根据 编辑 时 间 的 设置 版 本 间距 离 
的 选项 ， 因 此 间隔 很 短 的 版 本 之 间 在 空间 距离 上 也 很 紧密 。 这 两 种 查 
看 数据 的 方式 后 来 都 被 证 明 是 很 有 用 的 。 











接 下 来 ， 我 们 需要 对 文档 位 置 和 段落 之 间 的 对 应 关系 进行 编码 。 
我 们 决定 使 用 竖 线 描绘 版 本 ， 其 长 度 与 每 个 版 本 的 长 度 相对 应 。 实 际 
上 ，y 轴 对 每 个 版 本 内 部 的 文档 位 置 进行 编码 。 一 旦 我 们 做 出 这 个 决 
定 ， 就 很 容易 知道 应 该 如 何在 一 个 版 本 到 另 一 个 版 本 间 画 线 来 描述 匹 
配 关 系 了 ， 如 11-2 所 示 〔 它 是 我 们 在 开始 编码 前 在 白板 上 手工 描绘 的 
一 个 素描 ) 。 








我 们 第 一 次 计算 出 的 版 本 看 起 来 大 致 如 图 11-3 所 示 ， 饭 描绘 了 单 
词 Abortion《〈 流 产 ) 在 2003 年 的 页 面 编辑 历史 。 该 图 看 起 来 有 些 丑 陋 
且 让 人 费解 ， 但 是 存在 一 种 清晰 的 结构 ， 甚 至 是 茶 些 特征 使 我 们 开始 
怀疑 代码 中 是 否 出 现 了 问题 。 举 个 例子 ， 你 会 注意 到 版 本 4 中 有 一 条 明 
显 的 间 院 。 我 们 手工 检查 了 数据 ， 确 定 这 并 不 是 代码 的 错误 : 我 们 看 
到 的 版 本 是 被 一 个 恶意 用 户 删 除 挥 了 文章 的 大 部 分 内 容 。 啊 哈 ! 该 可 
视 化 已 经 开始 把 我 们 的 注意 力 吸 引 到 该 文章 的 编辑 历史 的 一 些 重大 事 
fF 
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Al 11-2: 历史 流 的 可 视 化 机 制 示意 图 ( 见 彩 图 83) 








图 11-3: 历史 流 的 一 个 早期 可 视 化 版 本 ， 通 过 简单 的 线条 对 连续 版 
本 中 都 完整 的 文本 片段 进行 连接 


由 于 通过 手工 方式 查看 原始 数据 源 很 繁琐 ， 我 们 很 快 增加 了 一 个 
特性 ， 能 够 在 面板 右 侧 显示 每 个 版 本 的 原始 文本 。 这 在 可 视 化 开发 中 
很 典型 : 在 获取 到 对 原型 可 视 化 的 总 体 概 览 之 后 ， 能 够 查看 详细 信息 
通常 是 一 种 很 好 的 方式 。 这 不 仅 是 用 户 通 常 想 要 的 特性 ， 而 且 提 供 了 
一 种 重要 的 方法 来 检查 可 视 化 概览 的 正确 性 。 可 视 化 结构 还 是 难以 阅 
读 ， 因 此 我 们 决定 进行 相应 的 “填充 ”， 即 对 每 对 平行 线 内 部 进行 填 
充 。 图 11-4 显 示 了 填充 结果 。 




















图 11-4: 历史 流 图 显示 Wikipedia 上 的 “Chocolate” 条 目的 相关 文 





章 的 文本 在 不 同年 份 的 变化 : 颜色 更 深 的 分 块 表示 时 间 更 早 的 文章 
( 见 彩 图 84) 





结果 图 片 易 于 理解 ， 而 且 看 起 来 也 没有 那么 复杂 。 实 际 上 ， 我 们 
现在 认为 存在 自然 的 方式 来 呈现 另 一 种 变量 ， 通 过 对 连接 相应 文章 的 
多 边 形 进行 着 色 。 

从 技术 思想 上 看 ， 该 算法 工作 如 下 : 首先 找到 在 每 个 序列 中 只 发 
现 一 次 的 词 项 单元 (〈tken) ， 然 后 把 这 些 匹配 扩展 到 更 大 的 连续 分 块 


o 


编辑 年 份 








在 网 站 上 的 编辑 历时 很 长 的 页 面 是 否 比 历时 短 的 编辑 页 面 质量 更 
高 ， 我 们 对 这 个 问题 很 感 兴趣 ， 同 样 感 兴趣 的 是 是 否 可 以 以 任何 其 他 
方式 对 编辑 质量 进行 区 分 。 年 份 是 一 个 简单 的 数值 变量 ， 使 用 灰色 来 
描述 是 有 意义 的 ， 如 图 11-4 所 示 。 这 是 我 们 增加 的 第 一 种 彩色 效果 ， 
它 存 在 两 个 优点 : 一 是 说 明了 年 代 这 个 维度 ， 二 是 深浅 变化 的 灰色 实 
际 上 使 得 整 张 图 形变 得 更 加 清晰 易 读 。 这 可 能 和 和 人们 的 直观 感觉 有 所 
不 同 ， 但 是 属于 可 视 化 中 的 和 常见 现象 .增加 额外 信息 实际 上 可 以 帮助 
我 们 理 清 复杂 的 流程 图 。 
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然而 ， 我 们 的 真正 目标 是 要 找到 群 组 编辑 背后 的 驱动 力 。 因 此 ， 
我 们 需要 对 著作 权 进 行 描述 。 我 们 拥有 必要 的 数据 ， 因 为 每 次 编辑 都 
包含 了 著作 权 信 息 〈 登 录 的 编辑 人 员 的 用 户 名 ， 或 者 匿名 页 献 者 的 IP 
地 址 ) 。 我 们 应 该 如 何 给 每 次 编辑 分 配 颜色 ? 我 们 希望 有 多 种 颜色 ， 
这 样 可 以 区 分 开 不 同 的 贡献 者 ， 而 且 我 们 希望 任意 一 个 贡献 者 在 不 同 
页 面 的 颜色 都 相同 。 同 时 ， 我 们 希望 能 够 区 分 开 匿名 的 和 登录 的 贡献 
者 ul, 





我 们 最 后 决定 采用 不 同 的 编码 方式 ， 通 过 该 方式 应 用 软件 会 为 每 
个 用 户 选 择 鲜 明 、 饱 和 的 色彩 。 用 户 的 色彩 实际 上 并 不 是 随机 的 ， 而 
是 基于 对 每 个 作者 名 字 的 Java“ 散 列 码 ”( (hshcode) 。 这 种 技术 实现 
可 以 确保 每 个 作者 的 色彩 在 流程 图 中 保持 一 致 ， 而 且 存 在 很 广泛 的 色 
彩 变 化 空间 。 对 于 匿名 编辑 ， 我 们 选择 浅 灰色 来 表示 。 








整体 视觉 效果 很 显著 ， 如 图 11-5 所 示 。 这 样 ， 用 户 可 以 对 包含 很 
多 匿名 编辑 的 页 面 “ 显 示 一 片 灰 色 ) 和 完全 或 主要 由 登录 用 户 编辑 的 
页 面 《 充 满 彩色 显示 ) 之 间 的 区 别 一 目 了 然 。 当 一 篇 文章 的 编辑 工作 
主要 是 由 一 些 编辑 完成 时 ， 也 可 以 很 容易 区 别 。 为 了 把 作者 名 字 和 人 色 
彩 关 联 起 来 ， 我 们 在 屏幕 左 侧 增 加 了 一 些 说 明 。 
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图 11-5: 历史 流 的 彩色 显示 : 每 种 颜色 表示 茶 个 作者 所 编辑 的 文本 


( 见 彩 图 85) 
: 对 匿名 用 户 基 于 其 IP 地 址 来 分 配 不 同 的 颜色 看 起 来 可 能 有 欺骗 
性 ， 因 为 地 址 和 实际 用 户 之 间 没 有 明显 的 关联 。 不 同 的 人 们 在 不 同时 
间 通 过 公司 网 络 登录 可 能 会 显示 相同 的 IP 地 址 ， 相 反 地 ， 同 一 个 人 从 
不 同 IP 地 址 进行 编辑 也 很 寻常 。 





作者 个 人 


接 下 来 ， 我 们 希望 当 只 碍 看 做 者 个 人 的 贡献 时 能 够 更 加 简单 。 为 
了 这 个 目标 ， 我 们 把 作者 的 故事 做 成 可 点 击 : 选择 一 个 作者 ， 对 流程 
图 进行 着 色 ， 因 此 被 选 定 作 者 所 做 出 的 贡献 会 采用 很 鲜亮 的 奶油 色 来 
突出 表示 ， 而 流程 图 的 其 他 区 域 在 显示 上 则 颜色 更 深 〈 见 图 11-6) 。 
我 们 在 采取 该 措施 之 前 尝试 了 一 些 其 他 方案 。 保 持 被 选 定 作 者 用 很 鲜 
之 的 颜色 显示 而 其 他 作者 用 较 暗淡 的 颜色 表示 ， 达 到 这 种 效果 的 男 一 
种 做 法 是 使 用 白色 表示 被 选 定 的 作者 ， 但 是 这 种 方式 并 不 能 突出 选 
择 ， 反 而 会 让 人 费解 ， 因 为 主 视图 中 的 灰色 带 表 示 的 是 匿名 编辑 。 
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图 11-6: 奶酪 模式 显示 的 流程 图 ， 表 示 单 个 作者 随时 间 所 做 出 的 贡 
献 〈 见 彩 图 86 ) 








然后 ， 我 们 增加 了 一 些 其 他 小 的 特征 和 编码 ， 但 是 实际 情况 是 开 
发 速度 开始 放 慢 ， 因 为 程序 变 得 很 有 意思 “”。 实 际 上 ， 它 可 能 是 太 
有 意思 了 ! 我 们 不 再 一 直 写 代码 ， 花 了 很 多 时 间 看 一 篇 又 一 篇 的 文 
章 ， 着 迷 于 各 种 各 样 的 模式 。 这 对 于 可 视 化 开发 始终 是 个 好 兆头 ， 而 
从 喘 边 走 过 的 人 常常 被 我 们 屏幕 上 的 图 片 所 吸引 ， 开 始 停 下 来 和 我 们 
长 时 间 地 交谈 。 

















可 视 化 允许 我 们 很 快 地 了 解 参与 一 篇 文章 编辑 的 不 同 编辑 人 员 、 
每 个 人 所 做 的 改动 甚至 是 做 出 最 后 的 决定 上 产生 的 分 歧 。 我 们 按 探 住 
了 对 无 数 的 文章 进行 可 视 化 的 冲动 ， 决 定 至 少 在 那个 时 候 ， 可 视 化 工 
作 已 经 完成 了 。 显 然 ， 它 满足 了 我 们 初始 的 目标 ， 采 用 协作 模式 看 起 
来 对 于 调查 很 有 保障 。 接 下 来 ， 我 们 把 注意 力 转 到 使 用 它 来 获取 科学 
上 的 结果 。 








Ll] : 还 是 存在 很 多 其 他 方面 我 们 还 没有 探索 。 当 BenFry 独 立 创 建 了 
一 个 历史 流 图 版 本 “revisionist” 来 显示 “Processing” 的 环境 演化 
过 程 时 ， 我 们 看 到 了 一 个 这 样 的 并 行 可 视 化 世界 。 不 是 增加 颜色 和 交 
互 性 ， 他 采用 全 局 的 方式 ， 使 用 优雅 的 曲线 和 在 y 轴 上 文档 位 置 的 变 
化 ， 使 得 可 以 很 容易 追踪 到 各 种 不 同 的 变化 。 





历史 流 的 实际 作用 





随 着 我 们 对 文章 的 研究 ， 我 们 开始 采用 了 探索 模式 。 在 查看 了 一 
个 又 一 个 的 流程 图 之 后 ， 我 们 开始 慢 慢 地 认识 到 什么 是 正常 的 ， 什 么 
古怪 异 的 。 我 们 还 开始 看 到 一 些 不 同类 别 的 行为 变化 ， 如 “编辑 战 
争 ”， 在 这 些 “ 战 争 ” 中 ， 一 些 编辑 不 断 地 撤销 别人 的 修改 ， 在 可 视 
化 显示 上 是 很 醒目 的 之 字 曲 线 图 。 更 重要 的 是 ， 我 们 开始 跟 踩 该 图 片 
给 我 们 提供 的 一 些 线索 。 





如 何 奶 踪 可 视 化 线索 ， 从 定性 研究 转移 到 定量 研究 的 一 个 很 好 的 
例子 是 ， 我 们 对 一 些 经 常 被 恶意 算 改 的 文章 如 “Abortion” 条 目的 调 
查 。 从 图 片 中 可 以 很 清晰 地 看 出 恶意 算 改 通常 只 会 在 站 点 上 保留 儿 分 
钟 的 时 间 。 当 碍 看 每 个 版 本 都 显示 一 样 大 的 历史 流 图 时 《〈 见 图 11- 

7) ， 我 们 看 到 特征 化 的 黑色 裂纹 表示 恶意 删除 ， 当 通过 编辑 时 间 对 版 
本 进行 显示 时 ， 这 些 裂 纹 通 常 就 会 消失 〈 见 图 11-8) 。 








图 11-7: “Abortion” 条 目的 页 面 的 编辑 历史 ， 显 示 了 空间 上 等 价 
的 不 同 版 本 一 一 黑色 裂纹 表示 “恶意 删除 ”， 即 某 个 用 户 把 某 篇 文章 
的 所 有 内 容 都 删除 掉 的 恶意 行为 〈 见 彩 网 87) 
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Al 11-8: “Abortion” 条 目的 页 面 的 编辑 历史 ， 显 示 了 按时 间 进 行 
划分 的 不 同 版 本 《〈 见 彩 图 89 ) 





即使 多 次 发 现 这 种 模式 ， 然 而 它 也 并 不 能 构成 科学 依据 。 可 能 我 
们 想到 的 文章 刚好 是 特别 有 争议 的 或 者 监管 民 好 的 。 为 了 说 明 恶 意 破 
坏 和 快速 修复 实际 上 非常 普及 ， 我 们 需要 考虑 更 多 的 页 面 。 为 此 ， 我 
们 对 整个 维基 百科 的 编辑 数据 库 进 行 扫描 。 在 同事 Kushal Dave 的 帮助 
下 ， 我 们 创建 了 一 组 标准 可 以 识别 出 特别 明显 的 恶意 破坏 “ ， 并 实 
现 了 一 个 程序 ， 可 以 检查 所 有 满足 这 些 标准 的 编辑 。 结 果 发 现 是 绝 大 





多 数 这 种 恶意 编辑 在 几 分 钟 内 就 被 撤销 了 ， 说 明了 维基 百科 的 编辑 对 
于 变化 有 密切 地 审查 。 


对 结 朱 进行 沟通 


对 主观 印象 进行 统计 确认 是 我 们 所 面临 的 最 后 一 道 难题 ， 并 且 这 
种 统计 确认 方式 提供 了 令 人 满意 的 解决 维基 百科 的 初始 问题 的 方式 。 
我 们 没有 看 到 破坏 性 行为 的 证 据 的 原因 不 是 因为 这 种 行为 不 存在 ， 而 
是 因为 它 往往 可 以 很 快 地 从 公众 视野 中 消失 。 我 们 记录 下 了 这 些 结 
果 ， 并 提交 了 一 篇 科学 论文 ， 但 是 我 们 对 其 研究 并 没有 就 此 停止 。 





除了 添加 不 同 的 科学 例子 来 支持 我 们 的 理论 ， 还 存在 一 些 数字 可 
以 很 容易 地 解释 我 们 的 结果 。 反 过 来 ， 可 视 化 从 深度 和 细节 上 给 这 些 
数字 增加 了 可 信和 度 。 我 们 发 现 这 些 结果 存在 很 多 科学 界 领域 外 有 意思 
的 地 方 。 一 方面 ， 那 些 不 熟悉 维基 百科 内 部 运作 模式 的 人 很 快 就 被 在 
线 编辑 、 公 共 百 科 的 神奇 所 吸引 。 男 一 方面 ， 那 些 了 解 开 源 编辑 风格 
的 研究 人 员 则 会 惊叹 于 其 图 像 的 清晰 度 和 瞬间 所 能 够 展示 的 信息 的 丰 
是 性 。 历 史 流 证 明了 对 在 线 社区 进行 可 视 化 所 缠 涵 的 价值 同时 满足 人 
们 对 文化 的 兴趣 和 科学 的 研究 。 








[1] : 我 们 是 通过 寻找 文章 长 度 显著 减少 以 及 页 面 中 存在 低俗 文字 来 
判断 的 。 这 种 方式 当然 无 法 识别 所 有 的 恶意 破坏 ,但 是 它 所 挑选 出 的 
编辑 确实 绝 大 多 数 是 恶意 的 。 


RE: IRTP AEST BY 


2006 年 ， 我 们 重新 访问 了 维基 百科 。 百 科 全 书 人 气 很 旺 ， 我 们 想 
找 出 参与 的 贡献 者 的 更 多 信息 ， 尤 其 是 那些 贡献 了 很 多 编辑 的 核心 活 
跃 用 户 。 他 们 是 如 何 分 配 时 间 和 精力 的 ? 我 们 对 于 数据 是 否 匹配 
Yochai Benkler 的 “对 等 生产 ”( (per production) 模式 特别 感 兴 
趣 ， 这 种 模式 的 行为 包括 从 维基 百科 的 创建 到 Linux 的 创立 。 








我 们 和 一 个 非常 有 才华 的 实习 生 Kate Hollenbach 一 起 决定 对 网 站 
的 管理 员 ( (amins)、 享 受 特权 (如 阻止 其 他 用 户 或 删除 页 面 〉 的 超级 
用 户 的 编辑 历史 进行 分 析 。 管 理 员 通常 在 站 点 上 有 很 长 的 编辑 历史 ， 
而 且 代表 的 是 维基 百科 社区 的 核心 贡献 者 。 














我 们 为 了 了 解 该 数据 做 出 的 第 一 个 尝试 是 创建 了 一 系列 的 图 表 和 
图 形 来 表示 随时 间 变 化 的 活动 水 平 。 创 建 活动 图 本 映 很 简单 。 显 示 该 
数据 的 标准 方式 是 一 个 线条 图 ，x 轴 表示 时 间 ，y 轴 表示 编辑 次 数 。 我 
们 制作 了 一 系列 的 这 种 图 表 ， 它 们 虽然 很 清晰 但 是 我 们 感觉 其 信息 量 
还 不 够 丰富 。 和 历史 流 图 不 同 ， 我 们 通过 该 尝试 没有 发 现 意 外 的 模式 
或 者 是 可 以 月 发 新 的 调查 的 线索 。 


其 中 一 个 问题 是 简单 的 图 表 概 括 了 太 多 的 数据 ， 成 干 上 万 的 编辑 
压缩 成 单一 的 数值 时 间 序 列 ， 最 终 导 致 我 们 必须 删除 重要 的 信息 。 我 


们 面临 着 可 视 化 项 目 中 一 个 典型 的 抉择 ， 随 看 我 们 对 数据 进行 探索 ， 

我 们 应 该 “以 多 低 的 距离 来 飞行 ” We? 不 存在 先 验 知识 可 以 预先 
确定 是 否 存 在 有 趣 的 小 规模 的 模式 。 但 是 既然 我 们 从 “30000 英 尺 的 高 
空 还 无 法 识别 任何 东西 ， 我 们 只 能 选择 飞 得 更 低 。” 








显示 所 有 数据 





为 了 能 够 更 接近 “地 面 ”， 我 们 决定 查看 每 个 编辑 人 员 编 辑 过 的 
各 个 页 面 。 对 维基 百科 进行 编辑 是 重复 、 复 杂 的 业务 ， 我 们 党 得 需要 
在 可 视 化 中 反映 这 一 点 。 其 挑战 在 于 一 些 管理 员 页 献 了 10 万 多 份 编 
辑 ! 《最 活跃 的 用 户 在 两 年 中 平均 每 隔 10 分 钟 束 执行 一 次 编辑 。) 很 
少 有 可 视 化 技术 能 够 把 这 么 多 的 数据 点 显示 成 一 个 可 以 理解 的 图 片 。 














然而 ， 我 们 的 可 视 化 技术 在 泻 染 大 数据 集 上 非常 有 优势 。 在 学 术 
文献 中 为 人 所 知 的 一 系列 方法 是 关于 像素 填充 ， 它 是 把 每 个 数据 点 表 
示 成 一 个 像 系 或 者 最 多 表示 成 一 个 很 小 的 窍 形 。 像 素 填 充 可 视 化 方式 
是 挟 可 能 地 把 信息 打包 到 屏 医 中 ， 而 其 币 密 性 往往 会 种 来 一 种 半 绢 的 
美丽 。 实 际 上 ， 艺 术 家 Jason Salavon 把 整 部 电影 显示 成 一 组 像素 的 美 
丽 的 作品 启发 了 我 们 去 实现 进一步 的 探索 “| 。 

















应 用 这 种 技术 ， 我 们 把 管理 员 历 史 中 的 每 次 编辑 在 屏幕 上 表示 成 
小 矩形 。 把 这 些 窍 形 放置 在 分 块 内 ， 按 时 间 次 序 从 元 到 右 、 从 上 到 下 
查看 。 然 后 ， 由 于 空间 位 置 显 示 的 是 序列 化 信息 ， 我 们 只 能 采用 一 种 








方式 : 色彩 。 对 于 所 有 由 像素 填充 的 可 视 化 ， 按 照 定 义 ， 确 实 如 此 。 
通常 ， 磊 色 是 由 表示 数值 维度 的 梯度 来 定义 的 。 挑 战 在 于 那些 最 重要 
的 变量 一 一 文章 标题 和 编辑 评论 一 一 都 是 原始 文本 。 


为 了 把 这 些 文本 片段 转换 成 色彩 板 ， 一 种 自然 的 方式 是 尝试 我 们 
在 历史 流 中 使 用 的 相同 的 散 列 编码 技术 。 当 我 们 应 用 该 技术 后 ， 我 们 
确实 开始 看 到 模式 : 一 个 编辑 多 次 处 理 相 同 页 面 会 显示 成 一 条 彩色 
块 ， 而 在 其 他 情况 下 ， 我 们 一 点 都 看 不 到 重复 ， 这 表示 对 很 多 页 面 进 
行 编辑 的 编辑 人 员 通 第 只 是 对 每 个 页 面 做 了 一 处 改动 。 虽 然 现 在 看 到 
的 细节 比 以 前 多 得 多 ， 我 们 还 是 觉得 有 用 的 信息 被 隐藏 起 来 了 。 一 
面 ， 文 章 名 字 的 结构 不 是 由 散 列 编码 来 捕获 的 。 通 常 ， 相 关 的 文章 以 
相同 的 短语 开始 (如 “List of” 或 “USS”) 。 我 们 意识 到 这 种 结构 
可 以 通过 字母 序 着 色 方 案 来 保存 ， 其 中 每 个 字符 串 的 首 字母 确定 其 颜 
色 。 图 11-9 解 释 了 着 色 方 案 ， 而 图 11-10 则 说 明了 如 何 构 造 流程 图 。 
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图 11-9: 对 在 维基 百科 编辑 评论 中 发 现 的 单词 的 色彩 示例 〈 见 彩 图 
89) 


[1] 即 应 该 以 什么 样 的 粒度 来 研究 。 
[2] : 2000 年 ，Salavon 摘 给 《泰坦 尼 列 》 为 “有 史 以 来 票房 最 高 的 电 
影 ( (Te Top Grossing Film of All Time) (1*1) ”。 每 部 电影 画面 





被 显示 成 一 个 点 ， 其 色彩 是 所 有 画面 色彩 均值 。 


我 们 所 看 到 的 


一 旦 我 们 采用 这 种 新 的 配色 方案 











， 这 些 图 片 就 成 为 焦点 。 虽 然 编 


辑 历 史 依 然 很 复杂 ， 而 且 需 要 仔细 但 看， 我 们 看 到 了 更 多 类 型 的 模 
式 。 以 下 几 张 图 像 大 体 说 明了 我 们 所 查看 到 的 。 
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图 11-10: 对 每 次 编辑 的 用 户 评论 的 可 视 化 构建 彩色 图 〈 见 有 


乡 图 90 ) 


图 11-11 显 示 了 由 两 种 主要 色彩 组 成 的 文章 -标题 编辑 历史 。 我 们 
发 现 这 些 编辑 和 births (出 生 ) 与 deaths (死亡 ) 这 两 个 单词 对 应 。 
典型 的 标题 是 “1893 年 出 生 ”。 该 编辑 所 做 的 是 给 不 同年 份 页 面 增加 
关于 著名 人 物 的 出 生 和 死亡 信息 。 








图 11-11: 对 birth (出 生 ) 和 death (BETZ) 相关 的 文章 的 编辑 COL 
彩 图 91) 


有 些 编辑 发 现 了 自己 感 兴趣 的 主题 ， 并 坚持 致力 于 该 主题 。 图 11- 
12 看 起 来 像 一 个 紫色 海洋 ， 该 闫 色 对 应 于 前 级 为 “USS” 或 “United 
States Ship”。 该 编辑 致力 于 编辑 那些 描述 美国 海军 特定 船只 的 页 








图 11-12: 超过 1000 次 的 编辑 ， 绝 大 多 数 是 针对 标题 以 “USS” 开 头 
的 文章 ( 见 彩 图 92) 
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尔 被 完全 相同 的 色彩 干扰 。 因 此， 当 看 到 图 11-13 中 一 些 区 域 的 颜色 形 
成 一 条 彩带 时 ， 我 们 感到 大 吃 一 慰 。 








图 11-13: 彩带 〈 见 彩 网 93 ) 











这 种 带 来 视觉 冲击 的 模式 表示 了 按 字 母 序 排列 的 文章 标题 。 虽 然 
从 有 时 会 出 现 短 字母 序 模式 ， 但 是 我 们 看 到 了 很 多 长 字母 序 模式 ， 有 
的 非常 长 。 这 是 值得 研究 的 一 个 非常 好 的 先例 。 为 什么 会 友 生 ? EX 
会 对 维基 百科 带 来 什么 样 的 影响 ? 





有 些 彩 带 看 起 来 很 微妙 。 而 其 他 的 则 看 起 来 如 图 11-14。 谁 能 够 做 
到 如 此 有 序 的 编辑 ? 当 我 们 查看 用 户 页 面 时 ， 发 现 是 由 一 个 “机 器 
”完成 的 : 设计 了 一 个 软件 程序 ， 用 于 执行 自动 编辑 。 在 这 种 情况 
下 ， 这 些 编辑 包含 了 大 量 的 关于 地 理 位 置 的 文章 的 基础 分 类 。 











Al 11-14: “机 器 人 ”《 见 彩 图 94) 


分 析 数 据 


对 于 历史 流 ， 我 们 决定 通过 统计 和 学 方法 对 一 些 视觉 印象 进行 验证 
一 一 举 个 例子 ， 彩 带 问 题 表示 按 字 母 序 的 编辑 。 首 先 ， 我 们 写 了 一 个 
程序 可 以 识别 这 些 序 列 ， 并 根据 出 现 频 度 计算 概率 ， 验 证 它 不 是 随机 
事件 。 然 后 ， 我 们 进一步 研究 。 如 果 很 多 用 户 是 以 字母 序 来 编辑 的 ， 
征 否 表示 标题 按 字母 序 排列 在 前 的 文章 吸引 了 更 多 的 注意 力 ? 这 看 起 
来 可 能 有 些 编辑 会 乐观 地 开始 长 期 编辑 很 多 页 面 ， 而 最 终 却 只 是 半途 
而 废 。 为 了 测试 假设 而 完成 数据 收集 后 ， 我 们 发 现在 文章 标题 和 编辑 
次 数 之 的 字母 位 置 间 存 在 反 同 关联 ， 这 证 实 了 我 们 的 直觉 ， 以 字母 
“a” 开 头 的 文章 的 被 编辑 次 数 要 远 比 以 字母 “z” 开 头 的 文章 多 。 但 
是 ， 这 种 关系 也 不 是 绝对 的 ， 举 个 例子 ， 以 字母 “L” 开 头 的 文章 ， 由 
于 其 包含 的 列表 数目 最 多 ， 其 编辑 次 数 也 最 多 ， 但 是 这 种 关系 还 是 足 
以 作为 统计 上 的 一 个 重要 参考 。 这 些 彩带 使 我 们 更 细致 深入 地 查看 编 
辑 是 如 何 使 用 列表 来 组 织 他 们 自己 的 以 及 别人 的 工作 。 这 种 现象 和 
Benkler 的 “对 等 生产 ”理论 是 一 致 的 ， 在 该 理论 中 ， 工 作 被 划分 成 小 
的 单元 ， 人 们 可 以 自己 分 配 时 间 。 可 视 化 促使 我 们 对 初步 研究 的 问题 
得 到 满意 的 解决 。 














结束 语 


正如 我 们 的 故事 所 示 ， 创 建 可 视 化 会 面临 错误 的 开始 和 死胡同 。 
但 是 ， 虽 然 道路 是 曲折 的 ， 但 它 并 不 是 随机 的 。 我 们 给 出 的 两 个 例子 
都 遵循 一 致 的 过 程 ， 它 是 我 们 通过 对 过 去 的 几 十 次 可 视 化 不 断 进行 完 
善 得 出 的 。 以 下 十 我 们 在 所 有 的 可 视 化 项 目 中 总 结 出 的 3 条 基本 准则 : 





采用 真实 数据 


获取 到 好 的 数据 往往 既 困 难 又 折磨 人 。 不 论 是 谈判 获得 数据 库 访 
问 权 限 的 法 律 合同 还 是 写 一 个 程序 从 Web 中 获取 信息 ， 为 可 视 化 获取 原 
始 材 料 是 很 困难 的 。 可 能 由 于 这 个 原因 ， 很 多 人 会 尝试 多 任务 并 发 ， 
甚至 是 在 他 们 还 处 在 获取 原始 数据 过 程 时 ， 就 开始 设计 可 视 化 。 根 据 
我 们 的 经 验 ， 这 种 做 法 绝 大 多 数 情 况 下 是 错误 的 。 举 个 例子 ， 在 
Chromogram 项 目 中 ， 只 有 在 查看 一 组 相关 的 文章 标题 时 ， 我 们 才 意 识 
到 按 字 母 序 的 着 色 方 案 可 能 是 有 意义 的 。 





尽早 并 经 第 进行 可 视 化 一 一 但 是 知道 该 什么 时 候 开 始 对 于 其 他 类 
型 的 软件 开发 ， 达 代 开发 是 很 重要 的 。 每 个 项 目 都 开始 于 一 系列 的 设 
计 草 图 。 对 于 历史 流 ， 这 些 草 图 最 终 慢 慢 发 展 成 为 最 终 的 可 视 化 。 而 
对 于 Chromogram 项 目 ， 我 们 抛 茎 了 所 有 的 草图 ， 从 为 一 个 思维 角度 信 
看 数据 。 在 每 一 种 情况 下 ， 我 们 都 对 细节 粒度 进行 了 调整 《多 大 “ 粒 














度 ”) 。 对 于 历史 流 ， 增 加 对 不 同 作者 的 着 色 区 分 和 编辑 年 份 的 指示 
说 明 突 出 了 可 视 化 视图 的 重心 。 而 对 于 Chromogram 项 目 ， 在 把 数据 以 
可 能 的 最 细 粒 度 展 示 前 我 们 没有 获取 到 任何 信息 。 和 迭代 并 不 能 一 直 持 
续 ， 因 为 我 们 需要 注意 自己 已 经 做 的 所 产生 的 效果 。 历 史 流 和 
Chromogram 这 两 个 可 视 化 项 目 都 可 以 进一步 完善 ， 但 是 它们 都 达到 了 
我 们 所 期 望 看 到 的 那个 阶段 。 

















注意 更 大 范围 的 过 程 





可 视 化 仅仅 是 更 大 范围 的 分 析 链 中 的 一 个 步骤 而 已 。 在 整 条 分 析 
链 中 ， 起 始 于 一 个 问题 〈 为 什么 维基 百科 可 以 工作 ? ) 或 者 是 一 个 模 
糊 的 调查 领域 (这 些 维基 百科 的 编辑 是 如 何 做 到 的 ? ) ， 然 后 是 分 
、 文 档 记 录 和 结果 展示 。 一 个 恨 好 的 可 视 化 会 注重 整个 过 程 中 的 链 
， 对 正确 的 信息 进行 编码 来 驱动 最 初 的 调查 ， 并 保持 正确 的 思维 角 
， 从 而 促进 后 期 的 分 析 以 及 对 结果 的 交流 。 
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第 12 间 ”把 表 转 换 成 树 : EFTER ERK 
意义 深远 的 项 目 Robert Kosara 


学 术 软 件 项 目 往 往 会 从 一 个 初始 想法 有 机 性 地 发 展 成 复杂 、 难 以 
使 用 的 项 目 ， 从 而 可 以 显得 足够 新 颖 ， 用 于 发 表 论文 。 一 些 特征 通 种 
古 在 最 后 一 分 钟 才 被 添加 ， 其 目的 仅仅 古 为 了 能 够 给 论文 “润色 ”， 
而 几乎 不 考虑 如 何 集成 这 些 特征 或 者 如 何 改变 程序 的 基础 染 构 以 适应 


这 些 特征 。 











结果 是 很 多 程序 都 是 被 杂乱 地 拼 读 在 一 起 ，bug 很 多 而 且 坦 白 说 看 
起 来 很 让 人 十 人 多 。 络 果 是 这 些 软 件 并 没有 和 论文 一 起 发 布 ， 这 导致 产 
生 一 个 最 根本 的 可 视 化 问题 : 再 生性 在 理论 上 有 是 可 能 的 ， 而 在 实践 中 
很 少 能 够 做 到 。 很 多 程序 和 新 技术 也 是 从 零 开 始 开发 构建 ， 而 不 是 基 
于 已 有 的 技术 。 











解决 这 种 问题 的 最 佳 模式 是 尽 可 能 早 地 发 布 软件 ， 然 后 再 不 断 完 
善 和 重 构 它 ， 这 样 软件 可 以 有 反映 项 目的 全 局 设计 目标 。 然 而 ， 很 少 有 
这 么 做 的 ， 因 为 重新 实现 (或 者 彻 拘 重 构 没有 市 来 什么 学 术 价 值 。 
相反 地 ， 人 们 的 做 法 是 启动 下 一 个 项 目 。 














“并 行 集 ”( (Prallel Sets) 最 初 的 原型 实现 
( (htp: //eagereyes. org/parallel-sets) 和 上 述 方式 并 没有 什么 区 
别 ， 但 是 为 了 把 学 术 思 想 转变 成 真正 应 用 ， 我 们 需要 制订 一 个 项 目 规 
划 。 因 此 ， 基 于 经 过 长 时 间 酝 酿 总 结 出 的 对 必要 的 内 部 结构 的 一 个 更 
好 的 理解 ， 我 们 开始 重新 思考 并 重新 设计 它 。 在 这 个 过 程 中 ， 我 们 不 
仅 给 项 目 增加 了 工程 化 思想 ， 而 且 修改 其 生成 的 可 视 化 来 理 清 其 基础 





分 类 数据 


学 术 文 献 中 描述 了 数 以 百 计 的 可 视 化 技术 《每 年 增加 更 多 ) ， 但 
是 只 有 少数 特定 的 技术 使 用 了 分 类 数据 。 这 种 数据 只 包含 一 些 特定 意 
义 的 数值 “和 连续 的 数值 数据 不 同 ， 数 字 代 表 本 号 ) 。 例 子 包括 经 典 
的 普查 数据 ， 如 性 别 ( 男 性 或 女性 ) 、 种 族 、 建 筑 类 型 、 使 用 的 取暖 
燃料 等 。 实 际 上 ， 分 类 数据 对 很 多 真实 世界 的 分 析 任 务 是 至 关 重 要 
的 。 我 们 最 初 设计 该 技术 的 目的 是 源 于 一 个 庞大 的 客户 调查 ， 该 调查 
包含 99 个 多 选 题 ， 发 给 近 10 万 的 接收 者 。 调 碍 问卷 询问 人 们 如 清洁 剂 
和 其 他 家 用 物品 这 样 的 日 营 消 费 品 VA AMAR REA. FTE i 
子 年 龄 这 样 的 人 口 问题 等 。 即 使 在 可 以 收集 到 准确 的 信息 的 情况 下 
(如 年 龄 ) ， 该 调查 也 会 把 结果 值 组 合成 不 同 的 分 组 ， 这 些 组 合 可 以 
用 于 后 期 的 分 析 。 这 使 得 可 以 对 所 有 维度 进行 严格 分 类 ， 而 使 用 传统 
方法 几乎 无 法 可 视 化 。 
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作为 例子 来 说 明 “ 并 行 集 ”。 如 表 12-1 所 示 ， 我 们 了 解 每 个 乘客 的 旅 
行 舱 等 级 《一 等 舱 、 二 等 舱 、 三 等 舱 旅 客 或 工作 人 员 ) 、 人 性别、 年 龄 
(成 年 或 小 孩 ) ， 以 及 是 否 幸存 。 


表 12-1: 关于 泰坦 尼克 号 的 数据 集 


维度 值 

舱位 等 级 -等 舱 / 二 等 舱 / 三 等 舱 / 工 作 人 员 
性 别 女 / 男 

是 否 幸存 是 / 否 

年 龄 小 孩 /成 人 








实际 上 只 有 3 种 可 视 化 技术 可 以 真正 在 分 类 数据 上 工作 良好 : 树 形 
图 ( (teemap) ( (Sneiderman 2001) ~ IBI ( (msaic plot) ( (Teus 
2002) 和 并 行 集 。 其 原因 是 在 数据 的 离散 领域 和 大 多 数 可 视 化 变量 
(位 置 、 长 度 等 ) 的 连续 领域 之 间 存 在 不 匹配 。 当 只 有 一 些 维度 是 连 
续 的 时 ， 把 分 类 数据 作为 数值 的 方式 是 可 以 接受 的 ， 但 是 当 所 有 数据 
都 是 分 类 数据 时 ， 这 种 方式 会 变 成 完全 无 用 的 〈 见 图 12-1) 。 昌 然 绝 
大 多 数 的 数值 数据 集 的 自然 分 布 使 得 收集 至 少 和 数值 一 样 多 的 粗略 分 
布 是 可 行 的 ， 但 是 这 种 方式 对 于 当 只 存在 很 少 的 不 同 的 值 完 全 分 布 在 
相同 的 数据 点 之 间 时 ， 就 完全 不 可 能 获取 分 布 情况 。 























Al 12-1: 利用 经 典 分 类 数据 可 视 化 技术 : BURA E) 和 并 行 坐标 
( 右 ) ， 这 两 种 方式 带 来 的 大 量 数 据点 重合 导致 即使 采用 一 些 技巧 
〈 比 如， 数据 点 抖动 技术 ) 也 无 法 提供 多 少 信息 








“并 行 集 ” 或 称 ParSet (Bendix 2005, Kosara 2006) ， 它 是 一 种 
可 视 化 技术 ， 专 门 用 于 描述 分 类 数据 。 当 和 分 析 用 户 调查 数据 的 专家 
交谈 时 ， 我 们 意识 到 他 们 咨询 的 大 多 数 问题 不 是 基于 单个 人 的 调查 回 
复 ， 而 是 基于 这 些 回复 的 分 类 ， 或 者 是 集合 和 交集 。 对 于 有 3 个 小 于 5 
岁 小 孩 的 父母 ， 有 多 少 人 会 购买 名 牌 洗衣 粉 呢 ? 或 者 ， 换 名 话说 ， 集 
合 A 中 有 多 少 人 也 在 集合 B 中 ? 泰坦 尼克 号 上 有 多 少 一 等 舱 乘 客 幸 存 
(在 “舱位 等 级 ”维度 有 多 少 对 应 值 是 “一 等 舱 ”， 而 在 “是 否 幸 
存 ” 维 度 有 多 少 对 应 值 是 “是 ”) ? 他 们 当中 有 多 少 是 女性 〈 有 多 少 
人 在 “性 别 ” 维 度 是 “ 女 ”) 2 

















这 种 方法 意味 着 不 需要 绘制 数 以 干 计 的 代表 个 人 的 数据 点 ， 我 们 
只 需要 显示 数据 中 存在 的 可 能 的 集合 和 子 集 ， 以 及 这 些 集合 的 大 小 。 
如 果 这 些 集合 的 数量 和 相对 大 小 总 是 相同 ， 我 们 推测 我 们 甚至 可 以 证 
明 该 技术 和 实际 数据 集 无 关 。 








ParSet 不 是 把 数据 显示 成 集合 ， 而 是 深 受 “并 行 坐标 ” 
( (Prallel Coordinates) ( (Iselberg 2009) 的 影响 ， 后 者 是 一 种 流 
行 的 对 高 维 数值 数据 的 可 视 化 技术 。 平 行 轴 布 局 使 得 对 “ 树 形 图 ”和 
“马赛 克 图 ”的 阅读 和 比较 更 简单 ， 尤 其 是 随 着 维度 数量 的 增长 。 为 
这 种 布局 设计 有 效 的 交互 也 更 简单 。 








并 行 集 的 第 一 个 版 本 〈 见 图 12-2) 首先 是 基于 分 类 ， 然 后 是 基于 
交集 。 对 于 每 个 轴 ， 我 们 把 每 个 分 类 显示 成 一 个 合子， 其 大 小 和 每 个 
分 类 所 表示 的 数据 点 的 比例 一 致 。 从 统计 学 而 言 ， 这 种 显示 方式 被 称 
为 边缘 分 布 “或 边缘 概率 ) 。 每 个 轴 基 本 上 是 一 个 柱状 图 ， 每 个 柱状 
征 倾 糙 的 ， 而 不 是 彼此 相 邻 并 紧 直 显示 。 

















只 看 图 12-2 的 柱 形 图 ， 很 容易 发 现 工作 人 员 是 泰坦 尼克 号 上 最 大 
INR, = SENG A EK. SAE AA Bk = SHE DIRE, {ESE 
Px EEG SRE ABR . ARPA — eR EK eB eA GRE 
80%) , INA EKA RA = 72 WAS POR. 





使 用 色 带 连接 一 起 出 现 的 分 类 ， 例 如 ， 显 示 一 等 舱 和 女性 这 两 个 
集合 相交 的 概率 ， 这 样 可 以 算出 一 等 舱 中 女性 乘客 的 比例 。 色 带 使 得 
并 行 集 不 仅仅 是 一 扒 柱 形 图 : 它 能 够 使 用 户 同 时 看 到 几 个 轴 的 分 布 ， 
可 以 允许 用 户 识别 和 比较 不 同 的 模式 ， 人 否则 有 些 模式 将 很 难 和 被 发 现 。 








在 泰坦 尼克 号 这 个 肥 例 中 ， 在 不 同 分 类 中 ， 女 性 很 明显 地 分 配 不 
均 。 虽 然 一 等 舱 中 有 接近 50% 的 女性 ， 而 二 等 舱 和 三 等 舱 中 男性 的 比重 
要 远 远 超过 女性 。 船 员 95% 以 上 是 男性 。 虽 然 色 带 显示 很 有 用 ， 它 们 也 
存在 一 些 问题 。 必 须 对 色 带 宽度 进行 排序 ， 越 宽 的 色 芝 应 该 越 先 搬 
绘 ， 这 样 细 的 色 带 可 以 显示 在 上 面 ， 不 会 被 其 他 色 带 掩盖 掉 。 此 外 ， 
当 存 在 很 多 不 同 的 分 类 时 ， 往 往 会 存在 很 多 色 带 ， 结 果 导 致 这 些 色 带 
可 视 化 显示 上 很 密集 ， 人 们 难以 阅读 和 与 之 交互 。 
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Survived: Survived 
Yes: yes [ 711 (32%) ] 
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图 12-2: 原始 的 并 行 集 设计 〈 见 彩 图 95) 


交互 是 “并 行 集 ” 的 一 个 重要 方面 。 用 户 可 以 使 用 鼠标 显示 来 三 
看 真正 的 数字 ， 而 且 可 以 对 分 类 和 维度 重新 排序 ， 给 显示 增加 (或 者 
删除 ) 维度 。 还 存在 通过 大 小 对 轴 上 的 分 类 进行 排序 的 方法 ， 以 及 把 
分 类 组 合成 更 大 的 分 类 《〈 举 个 例子 ， 增 加 一 个 由 所 有 的 乘客 组 成 的 分 
类 ， 可 以 更 好 地 和 船员 进行 比较 ) 。 
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并 行 集 需要 我 们 通过 很 多 实验 才能 确定 的 一 个 方面 是 关于 如 何 对 
一 个 轴 到 另 一 个 轴 的 色 带 进行 排序 。 我 们 想 出 了 两 种 看 起 来 很 可 行 的 
排序 方法 ， 称 之 为 “标准 式 ” 和 “捆绑 式 ”。 标 准 式 只 根据 上 方 的 分 
类 对 色 带 进行 排序 ， 筷 可 以 形成 分 校 结构 ， 但 是 带 来 的 问题 是 当 包 括 
大 量 的 维度 和 分 类 时 ， 可 视 化 显示 会 非常 密集 。 捆 绑 式 对 位 置 在 上 方 
和 下 方 的 分 类 都 进行 分 组 ， 尽 量 使 色 融 平行 显示 ， 这 意味 着 它 会 对 部 

















我 们 开始 重新 实现 该 技术 以 寻找 好 的 可 视 化 结构 的 表现 方式 ， 在 
进行 了 一 段 时 间 之 后 ， 我 们 才 意 识 到 自己 一 直 在 看 的 结构 是 一 个 树 型 
结构 (这 是 “标准 式 ” 的 方式 ) 。 整 个 数据 点 集合 是 该 树 的 根 节 点 ， 
而 且 每 条 轴 把 数据 集 划 分 成 轴 上 的 分 类 ( 见 图 12-3)〉 。 色 带 显 示 了 树 
状 结构 :节点 看 起 来 和 预期 的 不 一 致 ， 因 为 我 们 在 每 条 轴 上 收集 这 些 
节点 来 形成 柱状 图 。 
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图 12-3: 并 行 集中 的 树 状 结构 ， 每 一 层 节 点 都 被 收集 生成 柱状 图 ， 
色 带 连接 不 同 的 节点 〈 见 彩 图 96) 





我 们 重新 实现 但 没有 对 可 视 化 做 任何 重大 改变 ， 但 是 树 状 结构 的 
想法 扎根 在 我 的 脑海 里 。 因 此 ， 有 一 天 我 问 自己 :如 果 我 们 减少 块 状 
显示 ， 主 要 集中 于 条 状 显示 ， 结 果 会 是 什么 效果 ? 其 结果 是 生成 了 一 
幅 更 清晰 的 树 状 结 构 〈 见 图 12-4) 。 





一 种 简单 的 变化 已 经 把 关注 焦点 从 分 类 方 框 变换 成 条 形 树 状 结 
构 。 在 新 的 设计 中 ， 当 用 户 沿 着 线条 点 击 鼠 标 时 ， 方 框 依 然 会 存在 
(提示 用 户 可 以 点 击 交 互 ) ， 但 是 这 只 是 个 手段 轩 了。 我 们 真正 感 兴 
趣 的 核心 信息 在 于 把 分 类 方 框 划 分 成 了 多 个 子 集 。 


除了 增强 结构 清晰 性 ， 新 的 设计 还 更 好 地 利用 了 字体 来 体现 维度 
层次 和 分 类 标签 ， 而 且 视 觉 效 果 显 得 更 为 优雅 。 








Al 12-4: 新 的 并 行 集 设计 ， 更 清晰 地 显示 了 树 状 结构 〔( 见 彩 图 97) 





根据 聚 类 和 集合 来 查看 数据 算 不 上 新 的 想法 。Polaris(Stolte、 
Tang 和 Hanrahan 2002) 和 Tableau '! 是 基于 类 似 的 思想 构建 的 ;对 
很 多 单个 值 进行 聚集 ， 并 把 聚集 划分 成 不 同 的 子 集 。 对 非 层 次 数据 的 
树 形 图 的 使 用 《这 也 是 当前 树 形 图 被 广泛 使 用 之 处 ) 是 基于 相同 的 转 
换 。 根 据 数据 创建 一 柠 子 集 树 可 以 促使 用 户 使 用 任何 层次 级 别 的 可 视 
化 来 显示 该 数据 。 树 形 图 主要 专注 于 节点 大 小 而 不 是 树 形 结构 ， 这 是 
一 个 很 自然 的 选择 。 








对 最 初 设计 的 变更 只 需要 对 程序 做 很 少 的 修改 ， 但 是 从 这 点 看 
(而 且 重 新 实现 的 性 能 也 很 一 般 ) ， 对 可 视 化 变化 的 认 知 上 的 需求 仅 
仅 是 该 程序 数据 模型 的 基本 设计 问题 。 





|1] 参见 http: //www. tableausoftware. com. 


新 的 数据 模型 





在 原始 程序 中 ， 数 据 是 以 其 初始 的 方式 存储 的 : 作为 一 张大 表 存 
储 。 后 来 ， 我 们 增加 了 给 数据 创建 其 他 维度 的 功能 ， 但 并 没有 改变 该 
原则 。 对 于 显示 上 的 每 个 变化 ， 程 序 处 理 整 个 数据 集 并 对 分 类 组 合 进 
行 计 数 。 随 着 数 据 集 的 增 大 ， 该 处 理 过 程 变 得 非常 缓慢 ， 需 要 消耗 大 
量 的 内 存 。 





根据 集合 来 得 看 数据 的 一 大 优点 是 个 别 数 据点 确实 没有 什么 意 
义 ， 真 正 有 意义 的 是 数据 子 集 。 因 此 ， 下 一 步 很 自然 地 是 要 碍 看 所 有 
可 能 的 数据 聚集 ， 这 些 聚 集会 被 用 于 计算 生成 任何 用 己 感 兴趣 的 子 
集 。 








在 统计 学 中 ， 这 种 方式 被 称 为 交叉 表 ( (coss-tabulation) 或 透视 
表 ( (pvot table)。 在 两 个 维度 的 情况 下 ， 其 结果 是 生成 一 张 结果 
表 ， 其 中 一 个 维度 的 分 类 以 列 的 形式 显示 ， 而 为 一 个 维度 以 行 的 形式 
显示 ， 如 图 12-5 所 示 。 


ia {== űl 
sae | 145 44.6% 
30.8% 6.6% 
二 等 舱 106 37.2% 62.8% 
22.6% 4.8% 8.1% 


三 等 舱 196 27.8% 72.2% 
41.7% 8.9% 9. 23.2% 
TIE a 23 2.6% 97.4% 
4.9% 1.1% 39.1% 








470 1731 2201 
21.4% 78.6% 100% 


Al 12-5: 泰坦 尼克 号 数据 集中 “船舱 等 级 ”和 “性 别 ” 这 两 个 维度 
的 交叉 表 








这 张 表 中 存在 两 种 类 型 的 数字 : 计数 值 和 百分比 。 在 左上 角 ， 每 
个 单元 格 包 含 不 同 标 准 组 合 的 人 数 计 数 ， 右 下 角 表 示 该 数值 所 上 总 数 
的 百分比 。 后 者 被 称 为 优先 级 百分比 《或 概率 ) 。 然 而 ， 通 常 更 有 意 
义 的 是 条 件 百分比 (或 称 条 件 概率 ) ， 它 表示 不 同 分 类 的 组 合 。 在 每 
个 单元 格 的 右上 角 是 给 定 茶 行 ， 能 够 得 出 需要 的 列 的 概率 〈 即 在 一 等 
舱 乘 客 中 女性 的 人 数 ) ; 在 左下 角 是 给 定 茶 列 ， 能 够 得 出 需要 的 行 的 
概率 〈 即 在 一 等 舱 中 女性 所 占 的 百分比 ) 。 








由 于 数据 是 完全 分 类 的 ， 区 叉 表 包含 了 所 有 相关 的 信息 ， 而 且 是 
我 们 需要 存储 的 所 有 信息 。 如 果 我 们 想 要 根据 它 重 新 创建 原始 数据 ， 








我 们 可 以 简单 地 通过 生成 尽 可 能 多 的 行 ， 每 种 分 类 组 合 都 如 给 定单 元 
格 所 示 。 唯 一 需要 其 他 数据 的 情况 是 当 数 据 集 也 包含 数值 列 。 





两 种 以 上 维度 的 交叉 表 有 一 些 复杂 ， 但 是 基本 遵循 相同 的 原则 。 
再 要 构建 和 数据 集 一 样 多 的 维度 的 高 维 数组 ， 数 组 中 的 每 个 单元 格 显 
示 该 值 出 现 频 率 的 计数 值 。 


不 幸 的 是 ， 可 能 的 组 合 数 很 快 就 变 得 非常 庞大 ， 而 且 实 际 上 比 在 
绝 大 多 数 数据 集中 的 行 数 要 大 得 多 。 举 个 例子 ， 对 于 人 口 普查 数据 ， 
只 考虑 《〈100 多 个 维度 当中 的 ) 有 房 或 租房 、 建 筑 面 积 、 建 筑 类 型 、 建 
成 年 份 、 居 住 年 份 、 房 间 数 量 、 取 暖 材料 、 财 产 价 值 、 家 族 /家 庭 类 型 
和 家 族 语 言 这 几 种 维度 就 可 以 生成 462000000 种 组 合 ， 而 对 于 整个 美 
国 ，1% 的 人 口 普 碍 微观 数据 样本 的 数值 仅 为 1236883。 





这 里 的 关键 在 于 对 于 高 维 数据 ， 绝 大 多 数组 合 在 实际 数据 中 并 不 
会 出 现 。 因 此 ， 只 需要 对 那些 真正 存储 信息 的 数据 进行 计数 。 这 在 我 
们 当前 的 实现 中 是 : 简单 地 通过 使 用 一 组 整数 数组 来 保存 每 个 行 中 的 
所 有 值 ， 并 使 用 该 值 作为 散 列表 的 键 值 。 在 绝 大 多 数 情况 下 ， 散 列表 
所 占用 的 空间 要 小 于 原始 数据 所 占 用 的 空间 。 








数据 库 模型 





数据 库 本 质 上 是 包含 每 种 分 类 组 合 的 计数 值 的 散 列 表 的 直接 映 
财 。 每 个 数据 集 单独 存储 在 一 张 表 中 ， 每 个 列表 表示 数据 集中 的 一 个 
维度 。 每 行 包含 描述 交叉 表 中 的 单元 格 的 分 类 值 ， 以 及 该 组 合 出 现 的 
频率 次 数 。 还 存在 一 个 额外 的 域 ， 称 为 关键 字 ， 该 关键 字 对 于 每 行 都 
是 唯一 的 ， 而 且 用 于 表 连 接 时 查看 数值 数据 。 














过 SQL 但 询 完 成 对 数据 的 聚集 ， 该 查询 语句 只 是 简单 地 选择 用 户 
感 兴趣 的 维度 和 总 的 计数 ， 对 相同 维度 的 结果 进行 ( 见 表 12- 


select class, sex, survived, sum(count)from titanic dims 
group by class, sex, survived; 


因此 ， 数 据 库 对 计数 值 进行 聚集 ， 返 回 只 包含 可 视 化 需要 的 值 的 
低 维 交叉 表 。 


表 12-2: 查询 泰坦 尼克 号 数据 集结 果 ， 只 包含 船舱 等 级 、 性 别 和 是 否 幸存 3 个 维度 


船舱 等 级 性 别 是 否 幸 存 计数 值 
-等 舱 男 否 118 
-等 舱 女 是 141 
二 等 舱 男 是 25 
二 等 舱 pra 是 93 
三 等 舱 男 是 88 
三 等 舱 男 否 422 
三 等 舱 pra 是 90 





12-2: 查询 泰坦 尼克 号 数据 集结 果 ， 只 包含 船舱 等 级 、 性 别 和 是 否 幸 存 3 个 维度 ( 续 ) 
船舱 等 级 性 别 是 否 幸存 计数 值 

三 等 舱 
工作 人 员 
工作 人 员 
工作 人 员 
工作 人 员 








该 模型 在 原理 上 和 数据 仓库 和 联机 分 析 处 理 (〈0AP) 非常 相似 。 缀 
大 多 数 数据 库 包 含 特定 的 “切片 ”〈《〈cbe) 或 “上 钻 ”(〈《 (Frllup) 关 键 
字 ， 可 以 从 一 张 普通 的 表 中 创建 聚集 。 它 的 优点 在 于 不 需要 前 置 特 殊 
的 处 理 ， 但 是 其 缺点 在 于 处 理 速度 更 慢 ， 而 且 需 要 更 多 的 磁盘 空间 来 
存储 所 有 的 原始 值 。 为 了 加 快 读 取 速 度 和 聚集 性 能 ， 对 数据 进行 特殊 

结构 化 处 理 “ 如 在 数据 仓库 和 数据 库 模 式 中 的 ) 可 以 显著 提高 普通 
操作 的 性 能 ， 其 代价 是 当 需 要 增加 新 的 数据 时 需要 做 更 多 的 处 理 。 











虽然 ParSets 应 用 程序 当前 并 不 显示 数值 维度 ， 它 确实 把 维度 信息 
存储 在 数据 库 中 。 这 些 维度 信息 是 存储 在 一 张 单独 的 表 中 ， 该 表 包 合 
这 些 值 对 应 的 行 的 键 值 ， 每 个 列 显示 一 个 数值 维度 。 不 是 使 用 计数 操 
作 ， 而 是 使 用 简单 的 连接 查询 ， 对 交叉 表 中 的 各 个 单元 格 中 的 任何 数 
值 维度 进 行 聚合 操作 。 任 何 标准 的 SQL 聚合 操作 (〈sm、avg、min 和 max 
KZO 可 以 用 于 这 个 目的 。 因 此 ， 该 程序 可 以 允许 用 户 选 择 一 个 数值 
维度 ， 用 于 对 条 状 显 示 和 色 币 进行 扩展 ， 而 且 可 以 选择 已 使 用 的 聚合 
操作 。 

















当前 版 本 的 并 行 集 把 数据 存储 在 本 地 的 SQLite 数 据 库 中 。SQLite 
古 非常 有 趣 的 开源 数据 库 ， 它 在 一 张 表 上 执行 操作 。 它 可 以 应 用 于 很 
多 嵌入 式 应 用 中 ， 而 且 对 于 数据 损坏 有 很 强 的 容错 性 〈 这 些 设备 在 任 
何 时 候 都 可 能 宕 掉 ) 。 然 而 SQLite 数 据 库 不 包含 商业 数据 库 的 所 有 特 
征 ， 它 很 小 、 很 快 而 且 不 需要 任何 步骤 。 这 使 得 SQLite 数 据 库 成 为 最 
佳 的 数据 存储 方案 ， 其 额外 优势 是 查询 语言 规范 。 








树 结构 增长 





然而 ， 数 据 库存 储 以 及 可 以 被 检索 的 交叉 表 只 是 其 中 一 部 分 。 为 
了 向 用 户 显示 并 行 集 展 示 ， 我 们 需要 用 一 棵 树 来 表示 。 每 当 用 户 改变 
维度 或 者 重新 对 它们 进行 排序 ， 应 用 程序 就 会 查询 数据 库 ， 检 索 到 新 
的 交叉 表 。 然 后 ， 应 用 程序 会 遍历 所 有 的 结果 数据 来 构建 树 。 如 果 仔 
细 查 看 ， 在 表 12-2 中 实际 上 已 经 可 以 看 到 这 些 信息 。 每 当 在 同一 列 中 
多 次 出 现 相 同 的 值 ， 我 们 查看 到 的 是 这 棵 树 中 相同 的 节点 ， 而 只 有 树 
的 右 节点 会 变化 ， 如 表 12-3 所 示 。 











表 12-3: 在 表 12-2 的 查询 结果 中 内 在 的 树 结构 








船舱 等 级 性 别 BEEF 计数 值 
-等 舱 男 是 62 
否 118 
EN 4 
一 等 舱 男 是 25 
否 154 
女 是 93 
三 等 舱 男 是 88 
否 422 
女 是 90 
否 106 
工作 人 员 男 是 192 
女 是 20 








FEF P m SOU xe — 1 TERR, POA MBG 
构建 树 ， 直 到 遇 到 不 存在 的 节点 。 在 树 中 增加 该 节点 ， 并 从 数据 库 的 
记录 中 获取 其 计数 值 。 





然而 ， 数 据 库 只 包含 树 的 叶子 计数 ， 而 不 是 其 内 部 的 节点 《其 他 
数据 库 如 Oracle， 当 执行 切片 查询 ( (che query) 时 ， 也 返回 内 部 节 
点 ) 。 但 是 ， 计 算 节 点 计数 很 简单 ， 只 需要 从 叶子 节点 到 根 节 点 ， 递 
归 地 对 每 个 孩子 节点 的 值 进行 求 和 。 








计数 值 本 身 也 只 是 原始 分 数值 ， 一 旦 一 个 节点 的 所 有 计数 值 已 
知 ， 就 在 同一 个 步骤 中 对 所 有 分 数值 进行 计数 。 为 了 准确 地 显示 条 状 
色 带 ， 我 们 使 用 百分比 : 每 个 分 类 的 一 个 先 验 百分比 (a priori 
percentage) 是 色 带 的 中 心 ， 用 它 作 为 整个 色 带 宽度 的 分 数 ， 而 使 用 条 
件 百 分 比 (根据 上 一 个 分 类 在 色 带 上 显示 下 一 个 分 类 ) 来 确定 色 带 的 


宽度 ， 作 为 分 类 条 状 宽度 的 分 数 。 


40.2% 14.8% 12.9% 32.1% 
ne 一 





78.6% 
一 == 


边缘 概率 
图 12-6 每 条 色 带 的 宽度 表示 其 在 所 有 数据 集中 的 边缘 概率 (成 比例 
DBD ， 以 及 在 每 个 分 类 的 条 件 概 率 ( 见 彩 图 98) 





现实 世界 中 的 并 行 集 








从 2009 年 6 月 发 布 该 应 用 程序 后 ， 它 已 经 被 下 载 了 750 多 次 〈 和 截止 
到 2010 年 1 月 ) 。 我 们 从 很 多 用 户 那 里 收 到 来 信 ， 他 们 成 功 地 把 该 应 用 
程序 用 于 自己 的 数据 中 。 在 2010 年 的 VisWeek 2010 发 现 展览 会 上 ， 我 
们 还 因为 对 使 用 该 程序 做 的 3 个 案例 研究 报告 而 获得 了 一 个 奖章 
( (htp: //discoveryexhibition. org) 。3 个 案例 是 和 另外 3 个 人 一 起 
实现 的 : Joe Mako (Mako Metrics), Jonathan 
Miles (Gloucestershire City Council, 32) 和 Kam Tin Seong (新 
加 坡 管理 大 学 ) 。 





Joe Mako 对 该 程序 的 应 用 方式 尤其 有 意思 ， 因 为 他 使 用 该 程序 来 
显示 看 起 来 像 多 个 处 理 阶段 中 的 数据 流 。 把 最 后 一 个 阶段 放 在 最 上 面 
意味 着 该 色 带 是 用 最 后 一 种 结果 进行 着 色 ， 这 使 得 他 可 以 很 容易 查看 
哪里 出 现 问题 。 实 际 上 存在 一 种 可 视 化 技术 ， 其 在 视觉 上 《虽然 不 是 
在 概念 上 〉 和 用 于 流 的 并 行 集 相 似 ， 称 为 Sankey 流 程 图 。 并行 集 可 以 
模拟 严格 按照 一 个 方向 流动 以 及 只 有 分 割 〈 没 有 合并 ) 的 流程 图 。 
Jonathan Miles 和 Kam Tin Seong 对 程序 的 使 用 和 该 程序 本 身 的 初始 目 
的 更 接近 ， 即 提供 有 趣 的 洞察 分 别 生 成 调查 结果 和 文 持 客 户 。 





结束 语 





学 术 界 很 注重 创新 ， 但 是 确实 存在 情况 使 得 思想 可 以 随 着 时 间 不 
断 发 展 ， 这 样 思想 才 会 更 清晰 更 完善 。 结 果 不 仅仅 是 对 问题 和 技术 有 
更 好 的 理解 ， 而 且 可 以 为 用 户 提 供 更 好 的 工具 ， 可 以 易于 理解 和 提供 
洞察 。 











并 行 集 重 设 计 说 明了 可 视 化 展现 和 数据 展现 (以 及 数据 库 设计 ) 
是 如 何 密 切 关 联 的 。 理 解 自己 拉 术 的 确 层 模型 可 以 给 我 们 带 来 更 好 的 
可 视 化 设计 ， 同 时 也 带 来 数据 库 和 编程 模型 的 大 幅 改进 。 
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第 13 章 “X by Y With: 奥地利 电子 
艺术 节 档 案 的 信息 美学 探索 Moritz 
Stefaner 


本 章 将 介绍 “X by Y” 项 目 ， 它 是 一 个 宫 括 了 奥地利 电子 艺术 奖 
从 1987 年 到 2009 年 间 所 有 获奖 作品 的 可 视 化 ， 奥 地 利 电 子 艺 术 奖 是 一 
个 著名 的 媒体 艺术 大 奖 。 这 个 可 视 化 的 最 终 版 由 一 系列 大 型 印刷 品 组 
成 ， 提 交 的 作品 根据 不 同 的 标准 被 划分 为 了 多 个 类 别 。 本 章 描述 了 完 


成 这 个 最 终 作 品 的 完整 过 程 ， 并 介绍 了 一 些 特定 的 设计 决定 的 缘由 。 





简介 和 概念 


Ludwig Boltzmann 研 究 所 的 media. art. research 网 站 和 我 在 2009 
年 春 签约 ， 工 作 内 容 是 关于 电子 艺术 大 奖 的 参赛 作品 数据 库 。 那 一 年 
是 奥地利 电子 媒体 艺术 成 并 30 周 年 ， 我 们 双方 一 起 决定 接受 挑战 ， 试 
厦 对 过 去 22 年 以 来 提交 给 该 奖项 的 所 有 作品 进行 可 视 化 分 析 。 在 此 之 
前 ， 从 未 在 整体 上 对 包含 这 些 提交 信息 的 数据 库 进 行 分 析 。 








在 该 项 目的 启动 大 会 上 ， 我 们 对 目标 进行 了 讨论 。 整 个 可 视 化 项 
目的 总 负责 人 Dietm ar 0ffenhuber 富 于 创新 ， 他 提出 需要 开发 不 同 的 
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e 量 分 析 


al 


我 们 是 否 可 以 通过 但 看 过 去 几 年 的 提交 作品 来 审视 艺术 市 ?不同 
的 分 类 之 间 有 何不 同 、 这 些 作品 来 自 哪 里 以 及 作品 的 价值 随 着 时 间 的 
推移 是 如 何 变化 的 ? 


社交 网 络 





在 过 去 那些 年 ， 评 委 团 成 员 都 是 谁 ? 他 们 以 及 获奖 人 是 如 何 互 相 
联系 的 ? 


艺术 历史 背景 





获奖 项 目 有 哪些 影响 ? 它们 在 哪里 被 引用 以 及 它们 在 媒体 艺术 领 
域 产生 了 什么 样 的 影响 ? 


下 文 将 要 介绍 的 我 所 做 的 项 目 属 于 第 一 类 。 有 具体 地 说 ， 我 将 查看 
提 区 的 数据 来 调查 确定 我 们 能 够 做 出 哪些 假设 、 得 出 哪些 见解 ， 以 及 
我 们 是 否 能 够 发 现 合 适 的 可 视 化 方法 将 “艺术 世界 ”的 特征 展示 给 展 
览 的 参观 者 。 


我 和 那些 致力 于 分 析 电 子 档案 的 艺术 历史 学 家 们 一 起 尝试 定义 了 
我 们 的 首要 兴趣 ， 如 图 13-1 所 示 。 不 需要 详细 碍 看 数据 库 ， 假 定 我 们 


能 够 处 理 一 些 基 础 维度 ， 如 作品 的 作者 、 作 者 的 国籍 、 参 赛 年 份 、 奖 
项 类 别 、 关 键 词 以 及 是 否 获 奖 。 该 算 阵 显示 了 这 些 因素 的 特定 组 合 的 
先 验 兴 趣 ， 比 如 专家 会 预期 有 趣 的 发 现 将 在 哪里 出 现 。 举 个 例子 ， 假 
定 我 们 能 够 通过 国籍 对 获奖 者 进行 划分 (并 把 结果 数据 和 全 局 提交 作 
品 统计 进行 比较 ) ， 然 后 就 可 以 查看 作者 和 分 类 之 间 的 关联 。 


ee 一 二 二 
~= 


奖项 类 别 
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了 解数 据 形 势 


接 下 来 ， 我 开始 和 Sandor Herramhof 一 起 寻找 可 用 的 数据 。 多 年 
以 来 ， 人 们 使 用 了 数据 库 模 式 ， 这 些 模式 没有 遵循 统一 的 规范 ， 对 细 
节 的 描述 相互 之 间 也 有 很 大 的 不 同 ， 这 使 得 对 已 有 的 数据 进行 概览 变 
得 很 困难 。 举 个 例子 ， 有 这 样 一 个 数据 库 ， 其 特点 是 将 备注 信息 以 XML 
格式 存储 在 一 个 文本 域内 ， 但 只 是 部 分 提交 的 作品 包含 这 种 信息 。 为 
了 简化 对 数据 总 体 状 况 的 获取 过 程 ， 我 开发 了 数据 可 视 化 统计 工具 
dbcounter |!) ， 它 很 小 、 采 用 nodebox |?! 的 展现 方式 ， 能 够 帮助 我 
们 快速 获取 分 类 数据 的 大 量 集合 的 总 体 概况 。dbcounter 通 过 读 取 CSV 
文件 ， 确 定 所 有 具有 唯一 值 的 属性 ， 统 计 这 些 属性 的 出 现 频 率 ， 并 把 
输出 结果 描绘 成 一 张 区 域 图 。 灰 色 区 域 〈 见 图 13-2) 表示 值 被 丢失 或 
值 为 空 。 总 体 而 言 ， 实 践 证 明 该 工具 对 于 理解 数据 库 内 容 是 很 有 用 
的 ， 尤 其 有 助 于 发 现 缺 失 值 和 理解 数据 的 多 样 性 。 
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图 13-2: 通过 dbcounter 工 具 对 数据 库 内 容 的 首次 概览 ，dbcounter 
是 一 款 定 制 的 nodebox 脚 本 〈 见 彩 图 99 ) 


有 了 这 些 绘图 ， 数 据 库 中 强 含 的 一 些 事实 信息 很 快 就 变 得 很 清 
晰 : 


”数据 库 中 存在 很 多 明显 见 余 的 域 ， 如 “Land”【 德 语 ， 表 示 
“国家 ”) 和 “sYear”， 这 是 由 过 去 几 年 数据 库 模式 的 合并 造成 的 ; 


”作者 名 字 、 参 赛 年 份 和 奖项 类 别 信息 很 完整 ; 
。 包含 的 国家 、 公 司 和 Web 地 址 信息 远 小 于 预期 。 


另 一 方面 ， 这 种 快速 地 初步 分 析 使 我 们 能 够 了 解 哪些 属性 组 合 可 
能 是 有 意义 的 ， 至 少 可 以 涵盖 大 部 分 有 意义 的 属性 组 合 数据 。 由 于 数 
据 迁 移 是 一 个 持续 的 过 程 ， 它 还 为 我 们 提供 在 茶 些 区 域 的 有 用 的 概 


览 ， 通 过 探索 这 些 区 域 ， 我 们 可 以 改进 数据 、 寻 找 哪些 域 可 以 合并 在 
一 起 或 可 以 进一步 补充 得 更 完整 。 举 个 例子 ， 我 们 这 个 团队 在 包含 有 
国家 域 的 数据 库 上 所 开展 的 工作 实际 上 是 尽 可 能 地 充实 更 多 的 信息 
(“看 起 来 是 真正 有 趣 的 信息 ， 而 我 们 已 经 与 这 些 信息 非常 接 














|1] 参考 http: //well-formed-data. net/archives/306/dbcounter- 
quick-visual-database-stats. 

[2] NodeBox 是 用 Python 实现 的 开源 的 二 维 动画 和 图 形 应 用 ， 详 见 
http: //nodebox. net/code/index. php/Home. 


探索 数据 


在 对 个 体 的 各 种 属性 的 初步 定量 分 析 之 后 ， 下 一 步 是 对 初始 的 数 
据 集 进行 切片 和 切 块 ， 从 而 调研 关联 关系 并 为 数据 中 出 现 的 空 日 寻找 
一 些 线索 。 在 这 一 步 ， 我 们 使 用 商业 软件 Tableau |!) ， 它 允许 我 们 在 
一 个 使 用 灵活 且 表 达能 力 很 强 的 工作 区 中 使 用 可 以 交互 的 表格 对 导入 
的 表格 数据 和 数据 库 中 的 数据 进行 探索 分 析 。 举 个 例子 ， 我 们 使 用 
Tableau， 对 缺乏 国籍 信息 的 提交 作品 通过 作品 的 参赛 年 份 和 奖项 类 别 
等 属性 进行 区 分 〈 见 图 13-3) ， 从 而 识别 出 最 大 的 空白 ， 这 种 方式 有 
助 于 在 目录 文本 等 其 他 媒介 中 搜索 出 缺失 的 信息 。 类 似 “ 提 交 的 作品 
的 数量 和 分 类 之 间 有 什么 关联 关系 ? ”和 “这 种 情况 在 过 去 几 年 之 中 
了 发 生 了 变化 ? ”这 样 的 问题 ， 都 可 以 借助 图 形 化 工具 轻易 地 找到 
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图 13-3: 对 缺乏 国籍 信息 的 提交 作品 生成 的 绘图 ， 通 过 作品 年 份 和 
作品 类 别 进行 划分 


其 他 探索 包括 根据 提交 作品 的 条 目 所 属 的 类 别 对 其 公司 进行 特征 
化 。 例 如 ， 图 13-4 的 图 表 揭 示 了 一 些 潜藏 的 有 趣 的 故事 。 然 而 ， 接 下 
来 很 快 就 会 发 现 ， 如 果 我 们 想 要 得 出 准确 的 结论 ， 对 不 同 数据 库 中 公 
司 名 字 的 统一 需要 花费 大 量 的 人 工 操作 。 





Career Sheu pore 
wo e Ba 
EET E carver 一 = 
Seen Uf aca why RRR =) re re ea re 
E -一 mn is 
ee o E E comes ar 
RUN E Dies ne: 
Coc. C Oh oe 
ee B ia econ bed Boiano 
| E ww mm yet 




















图 13-4: 按 公司 或 研究 所 进行 分 类 的 提交 作品 ， 对 不 同 分 类 进行 着 
色 【〈 见 彩 图 100) 


我 们 还 使 用 Tableau “工具 生成 了 一 张 初始 的 关于 提交 作品 的 世 
界 地 图 〈 见 图 13-5) ， 每 个 国家 通过 一 张 饼 图 表示 ， 它 可 以 说 明 不 同 
类 型 的 作品 的 分 布 情况 。 这 张 世 界 地 图 展示 了 艺术 节 在 本 质 上 是 以 欧 
洲 / 美 国 为 中 心 。 我 们 很 快意 识 到 这 种 简单 的 生成 统计 图 的 方法 对 于 这 
类 分 布 不 均匀 的 数据 是 很 低 效 率 的 ， 因 此 ， 后 面 我 们 将 会 介绍 更 详细 
复杂 的 方法 。 








a 
图 13-5: 包含 每 个 国家 的 提交 作品 的 世界 地 图 ， 按 作品 类别 进行 划 
分 ( 见 彩 图 101) 


我 还 使 用 Microsoft Excel 对 一 些 数据 进行 了 分 析 ，Microsoft 
Excel 似 乎 在 生成 堆栈 图 方面 有 优势 ， 堆 栈 图 适用 于 研究 过 去 几 年 的 趋 
势 ， 或 者 对 比 数据 子 集 间 属 性 的 分 布 。 举 个 例子 ， 图 13-6 显 示 了 各 个 
家 的 作品 的 相对 百分比 以 及 每 个 国家 获得 的 不 同类 型 的 奖项 的 百 分 
比 。 从 这 张 图 中 ， 我 们 可 以 看 出 美国 提交 的 作品 数量 占 提交 作品 总 数 
的 30%， 而 获得 的 Golden Nicas 奖 (最 高 级 别 的 奖项 ) 数量 占 总 数 的 
60%。 然 而 ， 这 种 趋势 在 后 期 对 全 部 和 验证 过 的 数据 进行 分 析 时 远 远 没 
有 如 此 明显 。 我 们 还 意识 到 获奖 和 国籍 这 两 个 属性 的 关系 是 复杂 而 又 
敏感 的 ， 只 能 通过 参考 数据 的 其 他 各 个 方面 才能 真正 理解 ， 如 每 个 作 

类 别 下 提交 的 作品 的 数量 〈 举 个 例子 ， 在 20 世 纪 80 年 代 ， 和 其 他 作 
m 类别 相 比 ， 计 算 机 图 形 这 一 类 别 的 提交 作品 数量 很 怀 人 ) 。 因 此 ， 


EER FETE) HY BEE EA ER ACL, Be RE RAS i he 
些 背 景 和 解释 次 明 时 ， 我 们 才 在 可 视 化 中 展示 这 个 故事 。 
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图 13-6: 不 同 国家 的 获奖 情况 〈( 见 彩 图 102) 
[1] : 参考 http: //www. tableausoftware. com. 


[2] Tableau 是 一 款 免 费 的 数据 可 视 化 软件 ， 详 见 
http: //www. tableausoftware. com/。 


初次 可 视 化 草图 


分 析 过 程 中 给 数据 增添 了 一 些 初始 的 思考 ， 而 且 为 我 的 合作 者 提 
供 足 够 的 机 遇 一 一 可 能 超出 他 们 的 期 望 一 一 对 数据 库 的 数据 进行 纠 
正 、 清 洗 和 补充 完备 。 在 此 基础 上 ， 借 用 Tom Armitage 的 BERG 博 客 上 
的 帖子 “在 海量 数据 中 埋头 苦 干 ， 对 数据 探索 的 真正 感觉 ” :1 ， 我 
对 哪些 数据 是 可 用 的 、 有 意义 的 、 有 趣 的 ， 以 及 数据 的 规模 有 很 好 的 
把 握 。 接 下 来 要 做 的 是 致力 于 可 视 化 原则 。 











为 了 对 一 些 不 同 的 可 视 化 选择 进行 原型 化 ， 我 改 成 使 用 Flash 
ActionScript 3 中 的 flare 库 -> ， 它 是 适用 于 生成 交互 可 视 化 的 一 个 
高 级 的 通用 框架 。 此 外 ， 我 还 使 用 Excel 表 格 分 析 更 多 的 堆栈 图 表 选 
项 。 从 这 些 图 表 中 ， 我 得 到 的 其 中 一 个 收获 是 我 们 应 该 更 多 地 强调 独 
立 的 数据 点 《比如 图 13-7 中 的 垂直 轴 上 的 各 个 年 份 ) ， 而 不 是 生成 连 
续 的 堆栈 区 域 图 。 在 电子 艺术 这 个 案例 中 ， 提 交 的 作品 仅仅 是 基于 手 
工 基 础 ， 因 此 不 同年 份 间 的 可 视 化 “插值 ”方式 会 造成 对 现实 情况 的 
误导 和 扭曲 。 








基于 上 述 考 虑 ， 我 们 开发 了 看 起 来 更 “纤细 ”( (fagile) 的 图 
通 


表 ， 通 过 降低 插值 区 域 来 支持 以 下 观点 : 


插值 区 域 只 是 作为 更 “坚实 ”( Cslid) 的 每 个 年 度 事件 之 间 的 连 
接 。 
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图 13-7: 按 国 籍 来 显示 不 同 分 类 的 初次 尝试 ( 见 彩 图 103) 


多 年 来 对 分 类 堆栈 区 域 图 的 探索 从 概念 上 提出 了 需要 解决 的 一 些 
额外 的 问题 。 奥 地 利 电子 艺术 布 的 分 类 结构 在 过 去 多 年 来 不 断 地 演 
变 。 举 个 例子 ， 在 1991 年 没有 设置 “计算 机 音乐 ”这 个 类 别 ， 而 在 其 
之 前 和 之 后 都 有 这 个 类 别 。 在 1991 年 ， 删 去 了 “计算 机 分 类 ?” 





这 个 类 别 ， 增 加 了 新 的 类 别 “ 数 字音 乐 ”。 如 何 最 佳 地 处 理 这 些 
情况 是 一 个 很 棘手 的 问题 : 一 方面 ， 存 在 明确 相关 的 分 类 ， 而 另 一 方 
面 ， 对 这 些 分 类 进行 统一 并 通过 不 同 的 标签 把 它们 作为 相同 的 分 类 ， 
这 种 方法 可 能 过 于 简单 。 类 似 这 种 决定 ， 需 要 考虑 专家 的 意见 和 设计 





师 的 观点 来 制订 准确 、 实 用 、 易 于 理解 的 方法 。 我 们 讨论 后 ， 决 定 把 
这 些 类 别 作 为 独立 的 分 类 ， 但 是 在 不 同 的 可 视 化 中 对 它们 使 用 相同 的 
绘图 颜色 的 方法 来 解决 这 个 问题 〈 见 图 13-8) 。 








图 13-8: 根据 年 份 所 做 的 分 类 〔( 见 彩 图 104) 





随 着 对 已 有 图 表 的 探索 ， 我 也 开始 对 可 视 化 中 那些 令 人 回味 的 、 
含蓄 的 方面 更 加 感 兴趣 。 我 不 喜欢 某 些 特征 ， 比 如 Flare 图 表 从 可 视 化 
角度 看 很 吸引 人 ， 但 是 显示 上 有 点 过 于 “纤细 ”。 不 过 ， 还 存在 更 大 
的 担忧 : 虽然 纯粹 从 定量 角度 ， 以 类 似 媒体 艺术 奖 的 方式 看 待 文化 是 
有 趣 的 ， 但 是 我 们 感 党 上 自己 似乎 开始 失去 对 数据 规模 和 多 样 化 的 认 
识 ， 而 对 它 进 行 特征 化 的 角度 过 于 宽泛 。 有 效 的 可 视 化 和 总 结 与 优先 
次 序 之 间 有 很 强 的 联系 ; 然而 ， 只 是 创建 非常 抽象 的 图 表 对 于 可 视 化 
这 一 主题 没有 太 大 意义 。 难 点 在 于 是 否 存在 一 种 方式 ， 可 以 显示 作品 

















同时 还 可 以 不 忽略 甚至 不 隐瞒 


部 分 以 及 它们 之 间 的 相互 关系 ， 


y M2, 
总 数 、 


茶 些 个 别 作品 。 


可 视 化 原则 


FIX 
We NTT 


显示 


这 种 动机 驱使 我 首先 去 探索 密集 像素 的 “马赛 区 ” 


( (Kim 2000) ， 


解 一 个 书 


标 


随机 数据 做 了 





其 想法 是 我 希望 看 到 每 件 作品 的 可 视 化 
准 屏幕 上 适合 多 少数 据点 ， 我 使 用 


试 ， 如 图 13-9 所 示 。 
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所 做 的 实验 〈 见 彩 图 105 ) 


显示 


集 像素 


13-9: 对 密 


图 


决定 通过 查看 QR 码 O 来 做 进一步 地 


BE ， 
调查 。 我 们 是 否 能 够 使 用 有 意义 的 URL 来 构建 真正 的 QR 码 ， 


+ 
豆 


我 发 现实 验 结果 令 人 


使 





于 面积 或 像素 的 数据 图 上 也 能 够 正常 显示 ? 另 一 个 想法 是 根据 
Wattenberg (2005 年 ) 的 空间 填充 曲线 的 彩色 分 段 来 生成 类 似 于 树 形 
图 (也 称 “ 拼 图 ”) 的 流行 图 。 


然而 ， 真 正 的 重要 时 刻 是 当 我 想起 在 早期 项 目 中 使 用 过 的 布局 算 
法 。 基 于 黄金 角 一 个 完整 的 圆 的 “黄金 分 割 ” 和 角度 ， 即 137.5”) 的 
基础 计算 ， 它 模仿 了 同日 区 种 子 的 排列 方式 ， 即 把 小 的 元 素 打包 成 大 
的 圆圈 的 最 高 效 、 最 优雅 的 方式 。 图 13-10 显 示 了 我 在 几 个 小 时 内 做 出 
的 第 一 个 笃 试 ， 黑 白 交 蔡 变化 表示 年 份 〈( 和 树 墩 截面 的 年 轮 类 似 )， 
省 略 点 表示 获 炎 的 提交 作品 。 








虽然 可 视 化 很 复杂 ， 创 建 这 些 类 型 排列 的 基本 过 程 可 以 使 用 简单 
的 规则 来 描述 : 对 于 第 n 个 点 的 放置 ， 选 择 n 的 平方 根 乘 以 某 个 常数 比 
例 系数 作为 半径 。 该 点 所 在 的 角度 即 其 前 一 个 点 的 角度 加 上 黄金 夹 角 
(2*pi/phi= 约 137.5” ) 。 








为 了 把 这 些 点 统一 、 均 匀 分 布 ， 准 确 使 用 以 下 数值 是 很 重要 的 : 
假如 我 们 使 用 137. 4 ， 特 征 化 的 双 螺 旋 将 会 被 只 有 一 个 方向 的 单 螺 旋 
代替 ， 点 之 间 的 距离 将 会 开始 变化 。 使 用 黄金 夹 角 ， 我 们 可 以 无 限制 
地 增加 点 ， 而 且 每 个 点 和 其 邻居 节点 的 距离 将 会 均匀 分 布 。 为 什么 会 
这 样 呢 ? 我 们 选择 的 分 割 圆 圈 的 每 个 有 理 数 数值 迟早 会 生成 重复 的 
角 。 在 最 简单 的 情况 下 ， 如 果 我 们 总 是 转 半 个 圈 ， 结 果 会 是 只 有 两 个 
不 同 的 角 。 对 于 任何 有 理 分 数 ， 都 存在 重复 ， 因 此 只 能 使 用 有 限 的 角 


ale 


需要 使 用 无 理 数 一 一 理想 情况 下 是 使 用 最 大 的 无 理 数 〈 即 至 少 和 一 个 


度 集合 。 相 应 地 ， 如 果 我 们 想 对 数据 点 的 填充 和 分 布 进行 优化 ， 
分 数 接近 ) 。 该 数值 即 phi， 
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图 106 ) 


|1] 参考 http: //berglondon. com/blog/2009/10/23/toiling-in- 
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参考 http: //en. wikipedia. org/wiki/QR Code. 


13-10: 
the-data-mines-what-data-exploration-feels 


[2] 参考 http: //flare. prefuse. org. 


[3] 
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= de ae 
最 终 产品 


发 现 了 可 视 化 的 指导 原则 后 ， 很 多 开放 问题 和 可 能 组 合 现在 都 自 
然 地 简化 为 可 以 在 自我 约束 条 件 范围 内 正常 工作 。 举 个 例子 ， 该 原则 
确定 所 有 项 分 组 的 圆 形 形状 。 由 于 分 类 分 布 对 于 我 们 所 讨论 的 所 有 方 
面 都 很 重要 ， 我 们 决定 对 显示 的 所 有 可 视 化 的 分 类 分 布 进行 着 色 编 
码 ， 对 于 可 以 合理 作为 同一 族 分 类 的 所 有 分 类 用 同一 种 颜色 来 表示 
〈《 举 个 例子 ， 在 计算 机 动画 和 电影 领域 的 分 类 都 是 显示 成 桶 黄色 。) 
此 外 ， 我 还 采用 形状 编码 方式 来 表示 茶 个 提交 作品 是 否 获奖 《圆圈 表 


示 没 有 获奖 ， 钻 石 型 表示 获奖 ) o 

















正如 前 面 所 讨论 的 ， 在 概念 层次 上 ， 我 开始 对 作品 总 数 和 某 个 人 
提交 的 作品 数 之 间 的 关系 感 兴趣 。 因 此 ， 我 需要 找到 一 种 方式 ， 可 以 
把 该 信息 结合 到 最 终 的 可 视 化 中 。 我 做 了 一 些 不 成 功 的 实验 ， 在 圆周 
围 放置 一 些 额外 的 标签 来 表示 总 数 并 把 总 的 计数 值 放 在 圆 上 方 ， 这 种 
方式 会 导致 显示 上 非常 混乱 。 在 这 些 尝 试 之 后 ， 我 发 现 了 一 种 更 令 人 
满意 的 解决 方式 : 数字 实际 可 以 通过 点 模式 本 身 来 创建 ! 对 分 类 进行 
彩色 编码 的 决定 排除 了 其 他 所 有 对 点 本 身 的 修改 ， 我 决定 跳 过 序列 中 
用 于 表示 该 数字 的 位 置 的 点 ， 如 果 它 在 贺 上 被 其 他 数字 的 位 置 所 履 盖 
〈 见 图 13-11) 。 该 点 将 被 置 于 下 一 个 预计 算 的 位 置 上 ， 因 此 全 部 点 的 
数目 将 还 保持 不 变 ， 但 是 圆 的 面积 大 小 将 会 有 些 增加 。 显 然 ， 该 原则 























只 适用 于 那些 包含 足够 的 点 来 创建 数值 的 情况 ， 因 此 ， 该 圆 至 少 需要 
包含 100 项 才能 显示 数值 。 



































CP ee ES 
by . 
s 


Hither athe aman a a se 
penae Sak ae ee if ff PEK es 
oe : es 
he ere Recs 5 a 
s $ z 





e ofa A 
OO 


iat pas oer BLED 
© os Id 
xi ory aa ees aie es we 


eee 


a0" 
ee . 
[9 

2 Rrra 

eat 


soe 
EEC 
Sureste 










a 
+ 


Biases 





107) 


所 有 的 提交 作品 


图 13-12 显 示 了 在 过 去 22 年 所 有 提交 到 奥地利 艺术 节 的 作品 。 它 看 
起 来 像 一 棵 树 的 剖面 ， 最 早 提交 的 作品 被 置 于 最 中 心 ， 其 他 作品 按时 
间 先 后 顺序 置 于 该 作品 周围 形成 圆 。 这 种 组 成 方式 是 生成 所 有 其 他 图 
形 的 基础 ， 每 种 图 形 都 是 该 图 形 的 一 种 划分 ， 其 包含 的 数据 是 根据 不 
同 的 标准 分 析 得 到 的 。 
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图 13-13 所 示 的 图 形 足 以 作为 整个 项 目的 推动 力 : 根据 是 否 获奖 对 
提交 作品 进行 划分 ， 结 果 说 明了 只 有 物 的 作品 获得 有 苹 淮 称号、 荣誉 奖 
间或 金 像 奖 。 而 其 余 96% 的 作品 是 不 对 外 公开 的 一 一 到 目前 为 止 。 由 于 
这 个 原因 以 及 后 面 更 多 的 分 析 意 见 ， 为 了 避免 中 心 圆圈 在 视觉 感受 上 
扭曲 了 图 形 的 全 局 视图 ， 我 决定 用 一 张 饼 图 来 显示 组 内 数据 的 分 类 分 





图 13-13: 按 获奖 分 类 的 提交 作品 〈 见 彩 图 109 ) 


按 作 品 类 别 划 分 





图 13-14 显 示 了 按 作品 类 别 划分 的 对 所 有 作品 的 定量 分 析 。 同 时 ， 
它 在 饼 图 的 浅 色 区 域 显示 了 每 个 分 类 的 获奖 项 ， 在 每 个 圆 的 右 侧 由 外 
石 形 状 组 成 。 比 如 ， 它 说 明了 计算 机 图 形 分 类 的 提交 作品 数量 最 高 
GDK) ， 而 按 提交 作品 数 来 看 ， 其 获奖 数 很 低 〈 由 于 该 分 类 只 有 7 
年 的 历史 ) 。 根 据 Wang 等 (20064) 的 论文 ， 圆 圈 的 布局 是 使 用 Flare 
工具 的 CirclePackingLayout 算 法 来 计算 的 。 








图 13-14 按 作品 类 别 划分 的 作品 ( 见 彩 图 110) 


按 国 籍 划分 





图 13-15 显 示 了 提交 作品 的 作者 的 国籍 图 。 受 到 《纽约 时 报 》 的 
“奥运 金牌 图 ”的 启发 “  ， 该 布局 是 采用 物理 实体 模型 和 逼近 精确 
位 置 来 计算 的 ， 从 而 避免 了 圆 的 交合 〈 见 图 13-16 所 示 的 过 代 优化 过 程 
的 快照 图 ) 。 


为 了 得 到 国家 名 字 的 坐标 ， 我 使 用 了 在 线 应 用 程序 mapspread |? 
， 它 允许 用 户 批 量 售 询 表 格 数 据 来 获取 地 理 坐 标 。 然 而 ， 需 要 一 些 手 
工 校 正 ， 因 为 一 些 国家 名 字 无 法 确定 特别 是 东欧 国家 ， 东 网 的 政治 
格局 在 过 去 几 十 年 有 很 大 改变 ) ， 而 其 他 一 些 国家 名 字 很 含糊 : 实际 
上 ， 甚 至 在 最 终 版 的 地 图 中 ， 格 鲁 吉 亚 国家 还 是 被 错误 地 放置 在 美国 
和 旁边 ， 而 实际 上 应 该 是 坐落 于 俄罗斯 和 土耳其 之 间 的 东欧 国家 。 





图 13-15: 按 国籍 划分 的 提交 作品 〈 见 彩 图 111) 


图 13-16: 友人 代 式 图 片 优化 快照 〈 见 彩 图 112) 


仔细 碍 看 地 图 ， 可 以 发 现 媒体 艺术 的 本 质 是 以 欧洲 /美国 为 中 心 。 
南美 洲 、 非 洲 、 俄 罗斯 和 亚洲 《日 本 除外 ) 的 提交 作品 数 很 少 。 从 历 
史上 看 ， 从 法 国 和 西班牙 的 大 量 的 提交 作品 是 关于 计算 机 动画 和 电影 
《橙色 显示 ) 领域 。 从 显示 上 看 ， 意 大 利 、 瑞 典 和 英国 呈现 出 提交 更 
多 的 音乐 类 别 ( 紫 色 〉 的 作品 的 趋势 ， 而 日 本 则 似乎 提交 更 多 的 是 交 
Hem AE) 。 相 反 地 ， 德 国 和 美国 趋向 于 计算 机 图 形 (红色 》， 








至 少 在 奥地利 艺术 节 初 期 如 此 。 几 乎 三 分 之 二 的 奥地利 提交 作品 CA 
有 奥地利 的 ) 是 属于 U19 类 别 。 


[1] : 参考 


http: //www. nytimes. com/interactive/2008/08/04/sports/olympic 
s/20080804MEDALCOUNT. MAP. html. 


|2] : 参考 http: //mapspread. com. 


按 年 份 划 分 


图 13-17 所 示 的 饼 图 序列 显示 了 在 3 个 时 代 的 奖品 历史 的 明确 划 
分 。 在 1995 年 ， 提 交 作 品 数 量 急 剧 减 少 ， 这 和 计算 机 图 形 领 域 的 类 别 
的 终结 和 万 维 网 类 别 的 引入 一 致 。 这 种 下 降 的 一 个 可 能 的 解释 是 每 年 
在 计算 机 图 形 领域 提交 更 多 作品 很 平常 。2004 年 后 的 年 份 显 示 出 更 强 
的 种 类 多 样 化 以 及 提交 作品 的 陡 增 ， 主 要 是 由 于 引入 了 19 岁 以 下 的 奥 
地 利 艺 术 家 的 U19 类 别 。 
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图 13-17: 按 年 份 划分 的 提交 作品 〈 见 彩 图 113) 


按 年 份 和 类 别 划 分 





为 了 对 个 别 类 别 团 体 的 发 展 进行 审查 ， 图 13-18 显 示 了 时 间 轴 矩阵 
格式 版 本 。 对 于 颜色 编码 和 行 选择 这 两 个 方面 ， 我 们 都 决定 对 相应 类 
别 进行 分 组 ， 即 使 它们 的 标题 在 过 去 几 年 有 所 变化 。《〈 反 之 ， 需 要 注 
意 的 是 一 些 名 字 没 有 变化 的 分 类 在 不 同年 份 有 不 同 的 定位 。) 和 单个 
年 份 图 形 相 比 ， 这 个 版 本 更 易于 观看 动画 /电影 、 首 乐 ， 而 且 后 期 的 交 
互 艺术 称 为 Prix 奥 地 利 艺术 奖 的 长 期 支柱 。 








“测绘 资料 馆 ”( (Mpping the Archive) 是 位 于 Brucknerhaus 的 
历史 展览 ， 以 由 Dietmar Offenhuber, Evelyn Münster, Jaume 
Nualart、Gerhard Dirmoser 和 我 一 起 创建 的 6 种 不 同 的 数据 可 视 化 为 
特征 〈 见 图 13-19) |). 


~ omar s = an 3 = s- 


图 13-18: 按 类 别 和 年 份 划分 的 提交 作品 〈 见 彩 图 114) 





图 13-19: 展览 中 的 作品 





为 了 有 助 于 发 现 数据 中 独特 的 故事 ， 我 们 增加 了 少量 的 标注 箭头 
来 突出 有 趣 的 方面 ， 如 图 13-20 所 示 。 我 们 还 鼓励 用 户 添加 他 们 自己 的 
注释 ， 结 果 是 生成 了 一 些 有 趣 的 问题 和 标注 。 





1] 所 有 可 视 化 都 在 网 上 有 记录 http: //vis. mediaartresearch. at. 


结束 语 

本 章 介绍 的 可 视 化 是 在 2009 年 夏 开 发 的 ， 不 仅 和 负责 资料 库 的 技 
术 人 员 不 断交 流 思路 和 信息 ， 而 且 也 和 对 所 展示 信息 的 语义 方面 进行 
评论 的 媒体 艺术 专家 进行 了 不 断 的 交流 。 






图 13-20: 包含 手写 注释 的 箭头 形状 的 粘贴 〈 见 彩 图 115 ) 








我 认为 该 可 视 化 工作 是 “信息 美学 ”( (iformation aesthetics) 
L 的 新 兴 取 向 的 一 部 分 。 信 息 可 视 化 作为 一 门 科学 ， 通 常 涉及 一 般 的 
视觉 映射 方法 以 及 对 生成 的 结果 可 视 化 的 可 读 性 和 可 理解 性 的 优化 。 
信息 美学 是 基于 该 领域 构建 的 ， 然 而， 作为 一 门 设计 学 ， 信 息 可 视 化 
力求 找到 一 种 基于 特定 数据 集 的 信息 感性 化 的 展现 方式 ， 这 种 展现 方 

















式 不 仅 在 显 式 数据 展现 层次 上 是 可 用 和 可 读 的 ， 而 且 增 加 了 设计 的 
“命题 密度 ”( (popositional density) "| 一 一 简 而 言 之 ， 它 表示 
可 视 化 中 深层 的 形象 特征 ， 是 可 视 化 展现 的 “ 言 外 之 意 ”。“ 信 息 美 
学 ”这 门 学 科 就 是 以 这 种 方式 介 于 传统 的 信息 可 视 化 、 用 户 界 面 设计 
和 美学 学 科 之 中 。 

















我 希望 本 章 说 明了 “信息 美学 ”这 门 学 科 的 一 些 关 键 特征 。 首 
先 ， 查 看 创建 信息 美学 作品 的 过 程 是 很 重要 的 。 根 据 我 的 经 验 ， 以 真 
实数 据 工 作 是 非常 重要 的 ， 甚 至 是 在 早期 的 设计 阶段 。 原 则 上 ， 很 多 
从 理论 中 提炼 的 可 视 化 想法 在 早期 的 数据 结构 中 工作 良好 ， 但 是 它们 
是 否 传递 有 趣 的 信息 以 及 是 否 有 助 于 解决 问题 〈 或 者 提出 新 的 问 
题 ) ， 这 些 只 能 在 处 理 实际 数据 时 才能 确定 。 可 视 化 开发 必然 是 一 个 
不 断 自我 引导 的 过 程 ( (botstrapping process): 在 早期 你 必须 对 这 
些 方 式 进 行 实 践 ， 才 能 理解 应 该 使 用 哪些 可 视 化 和 数据 处 理 方法 进行 
下 一 步 探索 。 以 我 们 为 例 ， 早 期 通过 标准 工具 对 可 视 化 的 实践 帮助 我 
们 理解 应 该 使 用 哪些 数据 域 、 哪 些 数据 组 合 “ 看 起 来 ”很 有 趣 ， 并 为 
我 们 后 期 引用 这 些 具 体 、 真 实 的 例子 来 探讨 将 要 做 的 可 视 化 设计 特征 
提供 了 良好 的 基础 。 如 果 设 计 师 不 允许 自己 在 可 视 化 探索 中 改变 原 有 
的 想法 来 设计 最 终 产 品 ， 很 有 可 能 其 设计 的 产品 只 会 展示 一 些 表面 现 


象 ， 而 不 会 引出 新 的 问题 或 者 揭示 有 趣 的 故事 。 


























此 外 ， 意 识 到 所 展示 信息 的 语义 上 下 文 关 系 和 最 终 产 品 的 语义 符 
号 特征 是 至 关 重 要 的 。 打 个 比方 ， 在 语言 学 中 ， 语 义学 领域 和 句子 合 
义 的 研究 相关 ， 因 为 可 以 根据 句子 成 分 和 组 合 来 构造 句子 。 然 而 ， 众 
所 周知 语言 只 有 在 “ 语 用 学 ”角度 下 才能 够 完全 被 理解 : 语 用 学 是 研 
完 语 言 是 如 何 真正 在 社交 环境 中 被 使 用 的 。 一 个 字 词 表达 的 内 涵 是 什 
A? 在 特定 情景 下 ， 人 们 预期 什么 样 的 表达 ， 而 什么 样 的 表达 有 悖 和 常 
理 ? 














人 们 已 经 投入 很 大 精力 去 理解 信息 展现 中 的 可 视 化 语言 的 语法 和 
语义 学 特征 ， 而 如 今 信息 美学 融 开 了 研究 可 视 化 语言 的 “ 语 用 学 ”大 
门 。 举 个 例子 ， 本 章 所 展示 的 可 视 化 作品 ， 选 定 的 可 视 化 原则 是 源 于 
“内 在 张力 ”( Ciherent tension) 引起 的 、 从 纯 量 化 角度 来 查看 复杂 
的 社会 现象 。 在 深入 探索 丰富 多 样 的 数据 集中 ， 只 通过 “ 几 个 数 
字 ”， 从 方方面面 表示 22 年 的 媒体 艺术 历史 ， 我 们 的 可 视 化 展现 的 是 
什么 ? 可 视 化 的 展现 方式 是 尝试 捕捉 上 述 内 在 张力 ， 并 解决 其 中 一 部 


ae 

















从 以 上 的 分 析 可 以 看 出 ， 可 视 化 中 的 “美学 “概念 远 远 不 只 是 
“漂亮 的 照片 ”。 当 然 ， 使 用 舒心 是 一 项 重要 且 一 直 被 低估 的 因素 
一 一 在 很 多 情况 下 ， 关 于 用 户 体验 的 研究 说 明了 在 愉快 舒适 、 令 人 兴 
奋 的 环境 中 互动 的 重要 性 。 但 是 ， 正 如 史 带 夫 。 乔布斯 的 一 句 名 言 
“设计 不 在 于 产品 的 外 观 和 感觉 ， 而 是 它 如 何 工 作 。” 一 个 真正 的 审 








美 可 视 化 ， 除 了 必须 美丽 外 ， 而 且 必 须 能 够 表达 现 有 的 潜在 隐 含 特 
征 ， 并 能 够 激励 用 户 /读者 去 探索 更 丰富 多 彩 的 世界 。 


最 后 一 点 ， 但 看 可 视 化 中 展现 的 信息 的 含义 和 和 上下文， 人 们 常 第 
忽略 了 一 点 《甚至 是 在 本 章 中 所 展示 的 可 视 化 ) : 我 们 如 何在 更 大 规 
模 上 对 信息 进行 特征 化 ? 我 们 是 否 能 够 通过 连接 到 外 部 数据 库 ， 找 到 
对 观察 到 的 模式 的 解释 ? 以 奥地利 艺术 市 为 例 ， 比 较 每 个 国家 的 提交 
作品 数 统计 比 给 每 个 国家 提供 更 多 的 信息 展示 可 能 信息 量 更 多 。 一 个 
国家 提交 的 作品 数 和 其 经 济 实力 是 否 相 关 ? 或 者 是 否 和 数字 素养 
( (dgital literacy) 相关 ? 或 者 其 他 不 太 明 显 的 因素 ? 由 于 越 来 越 多 
的 开源 数据 源 提供 这 些 信息 而 且 可 以 访问 ， 为 真正 了 解 我 们 所 分 析 和 
展示 的 数据 库 中 的 新 兴 的 模式 的 重要 性 提供 合适 的 背景 和 基线 变 得 越 
来 越 重 要 。 














[1] “信息 美学 ”这 个 术语 是 Lev Manovich 创 造 的 ， 在 《Lau and 
Vande Moere) (200742) 中 有 详细 说 明 。 

[2] “命题 密度 ”这 个 术语 是 看 11liam Lidwell (2009 年 ) 定义 的 。 想 
要 了 解 该 术语 的 确切 含义 ， 请 参考 http: //well-formed- 

data. net/archives/495/propositional-density-in- 
visualization. 
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本 章 揭示 了 资料 数据 库 中 因为 管理 员 的 本 地 操作 和 数据 源 的 异 构 
而 产生 的 一 些 非 直观 的 结构 。 例 子 取 自 艺术 史 和 考古 学 领域 ， 之 所 以 
选择 这 两 个 领域 是 因为 它们 是 我 的 专业 研究 领域 。 尽 管 如 此 ， 本 章 将 
要 展示 的 成 果 一 一 对 数据 库 的 复杂 结构 进行 可 视 化 呈现 一 一 同样 适用 
于 很 多 其 他 领域 的 结构 化 数据 集 ， 包 括 生 物 研究 数据 库 和 大 众 协作 数 
据 库 ， 如 DBpedia、Freebase 或 语义 Web。 所 有 这 些 数据 集合 都 拥有 很 
多 共同 的 属性 ， 这 些 属 性 往往 不 具备 直接 的 应 用 价值 ， 但 是 当 我 们 想 
要 充分 挖掘 已 有 数据 的 应 用 价值 、 或 者 确定 应 该 从 何 处 入 手 ， 以 及 如 
何 花费 精力 和 资金 来 提升 这 些 价值 时 ， 这 些 属 性 将 非常 重要 。 














艺术 史 和 考古 学 的 资料 库 的 数据 来 源 有 很 多 种 ， 如 图 书馆 目录 和 
文献 目录 、 图 片 归 档 库 、 博 物 馆 目 录 以 及 一 些 通 用 的 研究 数据 库 。 所 
有 这 些 可 能 都 是 基于 非常 复杂 的 数据 模型 进行 构建 的 ， 而 且 只 要 数据 
足够 多 ， 即 便 是 最 乏味 的 例子 一 一 不 管 表面 上 看 起 来 有 多 么 简单 一 一 
其 中 的 任意 一 种 关联 关系 都 会 复杂 得 让 人 困惑 。 专 题 报道 可 能 涉及 所 
有 的 人 造 事物 : 比如 美国 国会 图 书馆 分 类 系统 会 处 理 包括 艺术 家 、 食 
谱 旋 至 物理 学 论文 等 所 有 东西 。 














我 选择 了 一 个 数据 集 作 为 本 章 的 例子 ， 其 规模 足够 大 ， 结 构 足 够 
复杂 ， 但 其 数据 规模 尚 处 于 可 以 有 效 地 处 理 的 范围 之 内 。 我 们 将 对 针 


对 文艺 复兴 时 期 的 仿古 艺术 品 和 建筑 开展 的 普查 统计 进行 可 视 化 

( Chtp: //www. census. de)， 该 普查 统计 是 由 Richard Krautheimer、 
Fritz Saxl1 和 Karl Lehmann-Hartleben 在 1947 年 发 起 的 。 它 收集 了 古 
代 的 历史 和 遗迹， 比如 罗马 雕塑 和 建筑 ， 在 西方 文艺 复兴 时 期 的 作品 如 
写生 、 素 描 和 旅游 手册 。 用 于 存储 这 些 数据 的 数据 库 在 2006 年 刚 从 基 
于 图 形 的 数据 库 系 统 ( (CNSUS 2005) 转换 成 更 传统 的 关系 型 数据 库 
( CCNSUS BBAW) 。 我 们 将 分 析 数 据 库 在 转换 之 前 那个 时 间 点 的 状态 。 
有 了 这 份 数据 ， 我 们 将 可 以 就 历史 状态 和 当前 以 及 今后 的 成 就 进行 比 
较 。 








越 多 越 好 吗 


在 艺术 研究 数据 库 领 域 工作 的 10 余 年 之 中 ， 一 直 存 在 的 最 为 时 人 
寻味 的 问题 之 一 是 如 何 衡量 项 目的 质量 。 人 文 领域 的 数据 库 很 少 会 像 
学 术 文 章 那样 被 引用 ， 因 此 在 出 版 发 行 行业 中 的 常用 评估 标准 并 不 适 
合 。 然 而 ， 大 多 数 评 估 只 是 基于 很 多 肤浅 的 标准 ， 比 如 是 否 和 制定 的 
标准 一 致 、 用 户 接口 质量 、 是 人 否 有 很 炫 的 项 目 名 称 以 及 在 项 目 描述 中 
古 售 使 用 了 最 近 的 流行 语 。 而 对 于 内 容 ， 评 佑 者 通 币 只 是 采用 一 些 基 
本 的 衡量 标准 ， 如 查看 数据 库 中 的 记录 条 数 、 询 问 一 些 和 很 多 特定 条 
目的 微妙 之 处 相关 的 问题 。 

















在 数据 标准 的 定义 中 ， 如 数据 模型 中 的 CID0C 概 念 参考 模型 
( CCDOC Conceptual Reference Model, CIDOC-CRM) 或 数据 交换 中 的 
“获取 元 数据 的 开放 信息 仓库 首创 协议 ”( COen Archives 
Initiative Protocol for Metadata Harvesting, OAI-PMH) 中 存在 的 
一 个 问题 是 ， 它 们 通常 需要 使 用 先 验 知识 ， 同 时 在 它们 的 框架 中 却 没 
有 提供 与 正在 收集 和 处 理 的 数据 相关 的 任何 信息 。 用 户 界 面 也 存在 同 
样 的 问题 ， 其 提供 的 关于 内 容 质量 的 信息 就 好 比 只 给 一 张 打 印 纸 提 供 
了 长 宽 比 信息 。 此 外 ， 数 据 标准 和 用 户 界 面 都 会 随时 间 变 化 ， 这 使 得 
以 其 作为 评估 标准 的 合理 程度 的 判断 更 为 困难 。 正 如 每 一 个 程序 员 所 
知 ， 一 个 用 老 的 Fortran 语 言 实现 的 算法 和 用 当前 流行 的 Python 脚本 实 
现 的 可 以 一 样 优雅 ， 而 且 速 度 甚至 能 够 更 快 。 因 此 ， 我 们 在 项 目 评估 
中 应 该 避免 任何 形式 的 系统 主观 俩 见 ， 也 就 是 说 ， 一 个 坚守 茶 个 标准 
的 用 户 不 应 该 长 惧 其 他 标准 的 粉丝 所 做 的 评价 。 














即使 我 们 一 致 认为 应 用 标准 是 可 取 的 ， 如 “开放 访问 ”( (0en 
Access) 标 准 〈 也 称 “ 开 放 存 取 ”) ， 但 是 其 带 来 的 影响 也 是 值得 商 梭 
的 : 虽然 “开放 访问 ”给 当前 很 多 项 目 提供 了 积极 的 作用 ， 但 其 在 资 
料 库 领 域 的 涵义 并 不 完全 清晰 。 我 们 是 否 真 的 应 该 满足 于 一 个 复杂 但 
免费 的 用 户 界面 (如 图 10 所 示 ，Bartsch 2008) ， 或 者 我 们 是 否 应 该 
更 倾向 于 选择 复杂 的 API 以 及 周期 性 地 对 数据 执行 金库 导出 (如 
Freebase) ， 后 者 是 否 会 带 来 更 严格 的 数据 分 析 以 及 更 高 深 的 数据 重 











用 ? 如 果 都 采用 “开放 访问 ”标准 ， 还 有 谁 会 愿意 给 私有 的 企业 数据 
资料 库 付费 呢 ? 


最 后 ， 我 们 必须 查看 任何 给 定 项 目的 实际 内 容 。 正 如 本 章 中 将 会 
说 明 的 ， 当 对 数据 库 进行 评估 时 ， 只 研究 一 些 特定 条 目的 微妙 之 处 所 
带 来 的 意义 很 有 限 ， 因 为 通常 情况 下 不 存在 通用 的 信息 来 衡量 任何 特 
定 的 数据 库 条 目 。 无 处 不 在 的 “长 尾 ”( Cling tails) 问题 ( (Aderson 
2006, Newman 2005, Schich*#2009) ， 我 们 在 本 章 会 遇 到 ， 这 意味 着 
外 插 一 些 富 信息 的 数据 条 目 到 整个 数据 库 中 是 不 明智 的 一 一 也 就 是 
说 ， 在 CENSUS， 我 们 无 法 只 基于 “万 神殿 ”推断 所 有 其 他 的 古代 遗 

















评估 中 常用 的 最 公正 的 衡量 标准 是 数据 库 的 记录 数 。 几 乎 所 有 的 
项 目 说 明 书 中 都 包含 该 标准 : 百科 全 书 列 出 了 它们 所 包含 的 文章 的 数 
目 《〈 如 维基 百科 ) ; 生物 医学 数据 库 公 布 了 化 合 物 、 基 因 或 者 其 包含 
的 蛋白 质 的 数量 (如 Phosphosite 2003~2007EKFlybase 2008) ; # 
至 是 传统 的 搜索 引擎 〈 但 是 数量 越 来 越 少 ) 在 它们 的 索引 中 提供 了 页 
面 数 量 ( (Sllivan 2005) 。 因 此 ，CENSUS 项 目 也 提供 了 一 些 数 字 说 明 
是 不 足 为 怪 的 : 





超过 20 万 条 目 包 含 图 像 和 文字 文件 、 地 上 点、 人物、 时 代 和 风格 、 
事件 、 研 究 文 献 和 说 明 。 登 记 的 古迹 约 有 6500 个 ， 古 迹 条 目 约 12000， 
文献 条 目 约 28000 |!) 。 


虽然 从 艺术 史 角 度 看 ， 这 些 数字 很 让 人 震撼 ， 因 为 一 个 大 型 展览 
目录 通常 仅仅 包括 几 百 个 条 目 。 但 是 在 查看 具体 个 例 时 ， 可 以 很 容易 
地 找到 反例 证 明 用 记录 数 作为 衡量 数据 库 质 量 的 关键 指标 是 不 合适 
的 。 由 于 搜索 引擎 处 理 邻 近 相 关 的 副本 (《〈Cakrabarti 2003) 、 如 
CENSUS 这 样 的 研究 数据 库 目 标 是 对 数据 进行 范 化 ， 其 方式 是 通过 消除 
原始 数据 中 的 不 确定 性 和 曾经 的 意见 不 一 带 来 的 明显 的 元 余 。 图 14-1 
中 的 例子 很 让 人 吃惊 。 注 意 ， 连 接 总 数 在 泛 化 前 后 保持 不 变 ， 由 此 引 
出 了 一 个 更 有 意义 的 对 质量 进行 初步 近似 评估 的 指标 ， 使 用 连接 数 和 
节点 数 的 比例 : 3/6 和 3/4 (在 本 例 中 )。 











drawing A hercules 1 drawing A ~. 
drawing B hercules 2 drawing B ~= Hercules Farnese 
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图 14-1: 缩小 记录 数 ， 提 高 数据 集 质 量 





显然 ， 为 了 评估 给 定数 据 库 的 质量 ， 需 要 有 更 复杂 的 措施 。 如 果 
我 们 真 的 想 知 道 数据 集 的 价值 ， 我 们 需要 查看 生成 的 全 局 结构 ， 常 用 
指标 无 法 显示 这 些 。 对 于 任何 数据 集 ， 我 们 唯一 可 以 预期 的 是 全 局 结 
构 可 以 特征 化 并 生成 一 个 复杂 的 系统 。 复 杂 性 源 于 人 们 在 本 地 所 执行 
的 操作 (Cua 2005) ， 也 因为 数据 源 的 可 用 性 和 人 们 对 它 的 关注 度 本 
质 上 是 非常 异 构 的 。 此 外 ， 每 个 资料 库 的 管理 员 对 于 先 验 数据 模型 的 
定义 都 有 不 同 的 看 法 。 由 此 导致 的 结构 化 复杂 性 难以 预测 ， 我 们 需要 
以 有 意义 的 方式 对 数据 库 进 行 衡 量 和 可 视 化 。 














[1] 来 源 于 http://www. census. de, retrieved 9/14/2009. 


把 数据 库 看 做 网 络 





艺术 史 和 考古 学 领域 的 结构 化 数据 ， 正 如 在 任何 其 他 领域 一 样 ， 
有 很 多 形式 ， 比 如 关系 型 或 面 癌 对 象 型 的 数据 库 、 电 子 表 格 、XML 文 档 
和 RDF 图 ，wiki、PDF、HTML 页 面 上 的 半 结 构 化 数据 以 及 传统 纸张 上 的 
(可 能 比 其 他 领域 包含 的 半 结 构 化 数据 部 要 多 ) 。 不 考虑 这 些 表现 形 
式 的 细节 ， 基 础 的 拉 术 结构 通常 涉及 3 个 领域 : 


一 个 数据 模型 协定 ， 包 括 从 存放 在 木 盒子 里 的 简单 的 索引 卡片 的 
分 隔 板 到 你 最 喜爱 。 的 展示 语言 中 的 复杂 的 本 体 。 


。 数据 格式 规则 ， 包 括 显示 模板 如 透 锐 ( (Petriga 等 2006) 或 者 
预定 义 的 查询 指令 。 








© 数据 处 理 规则 ， 根 据 数据 格式 化 指令 执行 的 处 理 规则 。 


在 这 里 ， 我 们 最 感 兴 趣 的 是 选 定 的 数据 模型 协定 如 何 和 己 有 的 数 
据 关 联 。 





正如 Toby Segaran 在 《数据 之 美 》 一 书 中 所 指出 的 ， 数 据 模型 协 
定 有 两 个 不 同 的 思路 。 其 一 ， 每 当 需 要 增加 新 的 信息 时 ， 可 以 给 数据 
库 创建 新 表 、 给 已 有 表 增 加 新 的 列 和 索引 ， 以 及 在 不 同 表 之 间 建 立新 
的 关联 ， 这 种 方式 导致 数据 库 模 型 变 得 更 加 复杂 。 其 二 ， 可 以 创建 一 


个 非 第 基础 的 模式 ， 如 图 14-2 所 示 ， 该 模式 可 以 支持 任何 类 型 的 数 
据 ， 本 质 上 是 把 数据 表示 成 一 张 图 而 不 是 一 组 表 。 


NodeID SourceNodeID 


NodeLabelname TargetNodeID 
NodeType LinkType 





图 14-2: 数据 库 可 以 映射 为 基础 的 节点 和 边 模 式 


如 上 表 所 示 ， 可 以 认为 每 个 数据 库 部 是 一 个 网 络 。 数 据 库 条 目 代 

表 网 络 的 节点 ， 而 节点 间 的 关联 关系 代表 网 络 的 边 〈 即 所 谓 的 边 或 连 

接 ) 。 如 采 我 们 把 艺术 研究 数据 库 看 作 网 络 ， 束 会 产生 很 多 可 能 的 

ARW: 节点 可 以 是 各 种 实体 对 象 如 百 迹 、 文 献 、 人 物 、 地 点 、 时 间 

或 事件 的 条 目 ( (Sxl 1974) 。 两 个 节点 之 间 的 任何 关系 《如 “图 请 A 

征 由 B 创 建 的 ”) 都 可 以 是 一 条 连接 或 边 。 因 此 ， 基 于 不 同 的 节点 之 间 
的 关系 ， 存 在 大 量 可 能 的 连接 类 型 。 


网 络 中 的 节点 和 边 的 类 型 的 先 验 定 义 和 传统 的 数据 模型 一 致 ， 能 
够 描述 由 很 多 管理 员 生 成 的 大 量 数据 的 集合 。 此 外 ， 采 用 网 络 描述 使 
得 在 复杂 网 络 科 学 中 的 计算 分 析 方 法 可 以 直接 应 用 ， 获 取 所 有 可 用 数 
据 的 大 范围 的 全 局 概览 成 为 可 能 。 因 此 ， 对 于 隐藏 于 当前 的 知识 范围 
以 外 的 通过 对 数据 库 概念 化 和 普通 的 本 地 查询 等 方式 无 法 发 现 的 结 
构 ， 我 们 现在 拥有 发 现 能 力 了 。 反 过 来 ， 这 种 方式 也 促使 我 们 超越 通 








常 的 质量 评估 衡量 标准 : 可 以 先 检查 数据 和 数据 模型 的 适合 上 度 ， 采 用 
的 标准 是 否 是 恰当 的 ， 以 及 将 数据 库 与 其 他 数据 源 关 联 起 来 是 否 合 理 


Fy 
等 。 


可 见 的 数据 模型 定义 


为 了 对 基础 的 结构 有 一 个 了 解 ， 我 们 在 数据 库 评 估 中 首先 希望 看 
到 的 是 数据 模型 一 一 可 能 的 话 ， 它 应 包含 描述 数据 在 模型 内 的 分 布 情 
况 的 一 些 指标 。 如 果 是 从 数据 库 的 图 形 表示 出 发 ， 如 图 14-2 所 示 ， 这 
是 一 个 简单 的 任务 。 我 们 所 需要 的 就 是 一 个 节点 集合 和 一 个 边 集 合 ， 
这 两 个 集合 可 以 很 容易 地 通过 一 组 关系 表 生 成 ; 如果 数 据 库 可 以 导出 
为 RDF 格 式 ( (Feebase 2009) 或 者 作为 连接 数据 (〈Bzer、Heath 和 
Berners-Lee 2009) ， 甚 至 还 可 以 免费 获取 。 有 了 这 两 个 集合 的 数据 
之 后 ， 使 用 制图 应 用 程序 如 Cytoscape (Shannon 等 2003) 一 一 一 个 起 源 
于 生物 网 络 科 学 社区 的 开源 应 用 程序 ， 可 以 很 容易 地 生成 节点 -连接 
图 。 最 终 的 图 表 如 图 14-3 所 示 ， 使 用 类 似 于 普通 的 实体 -关系 (《〈B) 图 
( (Cen 1976) 的 方式 描述 给 定 的 数据 模型 ， 并 在 图 中 包含 了 一 些 实际 
数据 的 量化 信息 。 











图 14-3 中 的 CENSUS 数 据 模型 是 从 图 14-2 中 描述 的 数据 库 模 式 中 抽 
取出 一 个 “元 数据 网 络 ”( (mtanetwork) : 每 种 节点 类 型 都 是 一 个 
“元 节点 ”( (mntanode) ， 每 种 连接 类 型 是 一 个 “元 连接 ” 

( (mtalink) ， 它 连接 两 个 元 节点 。 元 节点 的 大 小 反映 了 节点 的 实际 数 
目 ， 元 连接 线 的 长 度 反 映 了 连接 的 实际 数量 ， 这 种 方式 为 我 们 提供 了 
一 种 数据 库 模型 内 的 有 效 的 数据 分 布 的 直观 表述 形式 。 注 音节 点 大 小 








和 连接 线 长 度 在 不 同类 型 之 间 是 高 度 异 构 的 ， 在 我 们 的 例子 中 包含 了 4 
一 5 个 不 同 维度 。 常 见 的 节点 和 连接 类 型 在 实际 中 出 现 的 次 数 要 远 远 多 
于 绝 大 多 数 不 和 常见 的 节点 类 型 一 一 传统 的 如 数据 结构 图 通常 并 没有 反 
映 出 这 一 点 ， 这 往往 导致 在 一 些 特定 数据 模型 中 人 们 对 一 些 几乎 不 相 
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天 的 领域 进行 了 元 长 的 讨论 。 
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图 14-3: CENSUS 数 据 模 型 和 加 权 的 节点 -连接 图 ( 见 彩 图 116) 





节点 和 连接 类 型 频 度 的 异 构 性 并 非 仅 仅 存在 于 图 14-3 所 给 出 的 例 
子 中 。 在 很 多 数据 集中 都 可 以 观察 到 这 一 现象 ， 而 不 管 其 类 型 数目 是 


预定 义 的 还 是 随 着 管理 员 的 人 数 而 变动 的 ， 比 如 研究 数据 库 ( (Shich 
和 Ebert-Schifferer 2009) 、 大 量 的 文献 目录 (Shich 等 2009)， 
Freebase 和 连接 数据 云 。 据 我 所 见 ， 每 种 节点 类 型 的 节点 数目 和 每 种 
连接 类 型 的 连接 数目 都 呈现 出 右 偏 衰减 分 布 ， 即 众所周知 的 “长 尾 ” 

( (Aderson 2006, Newman 2005) 现象 ， 并 且 在 分 布 中 并 不 具备 正 态 
高 斯 分 布 中 均值 相同 的 特征 。Web 页 面 中 超 链接 的 “长 尾 ” 结 构 一 一 也 
就 是 说 ， 一 种 特定 的 连接 类 型 只 存在 于 一 种 节点 类 型 之 上 一 一 在 过 去 
10 年 中 一 直 是 众所周知 的 ( (Sience 2009) 。 图 14-3 清 晰 地 证 明了 在 
节点 和 连接 类 型 中 所 观察 到 的 异 构 性 ， 在 更 加 结构 化 的 数据 图 形 中 ， 
不 同 层次 的 节点 和 连接 类 型 中 也 存在 异 构 性 。 
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网 络 维度 


进一步 观察 图 14-3， 我 们 可 以 发 现 CENSUS 数 据 库 的 核心 维度 一 一 
古迹 和 文献 一 一 为 一 些 额 外 信息 所 包围 。 古 迹 和 文献 都 是 实体 对 象 ， 
但 是 到 目前 为 止 ， 它 们 之 间 的 区 别 在 于 前 者 是 中 心 文献 连接 的 目标 ， 
而 后 者 是 中 心 文献 连接 的 源头 。 虽 然 通常 来 说 任何 实体 对 象 都 可 以 作 
为 古迹 或 文献 ， 但 是 CENSUS 把 它们 划分 成 了 离散 的 节点 类 型 ， 因 为 这 
两 种 类 型 属于 不 同 的 时 期 〈 古 典 和 西方 文艺 复兴 ) : 文艺 复兴 时 期 的 

会 画 、 素 描 、 文 本 等 记录 了 古代 罗马 的 雕刻 和 建筑 构造 。 








除了 上 述 几 个 重要 的 维度 ， 还 有 为 外 一 种 被 称 之 为 “副本 ”的 节 
点 类 型 代表 实体 对 象 ， 用 于 代表 后 来 的 副本 古迹 ， 它 只 存在 于 文艺 复 
兴 的 特定 时 期 之 后 。 如 果 要 对 CENSUS 数 据 库 进 行 泛 化 ， 包 含 从 古代 至 
今 的 整个 时 间 窗 口 ， 把 吉 迹 、 文 献 和 副本 结合 成 一 个 实体 对 象 节点 类 
型 是 有 意义 的 ， 因 为 所 有 的 函数 都 是 通过 特定 节点 的 入 度 或 者 出 度 来 
定义 的 。 在 20 世 纪 80 年 代 早 期 ， 当 刚 开 始 构想 数据 模型 时 ， 其 设计 受 
到 关系 数据 库 的 茶 些 功能 的 约束 。 这 些 约束 现在 不 存在 了 ， 因 此 改变 
成 为 可 能 




















如 图 14-3 所 示 ， 分 布 在 实体 对 象 旁 边 的 对 象 包 括 : 人 物 、 地 点 和 
时 间 范 围 〈 如 日 期 和 风格 ) 。 这 些 维度 之 间 的 关联 关系 绝 大 多 数 使 用 
直接 连接 的 方式 进行 建 模 。 举 个 例子 ， 每 个 人 直接 与 出 生地 点 和 出 生 








日 期 连接 ， 因 此 在 没有 进一步 的 注释 说 明 的 情况 下 ， 无 法 识别 出 同一 
个 人 两 次 出 生 的 事件 (如 Venice 1573 和 Bologna 1568) 。 


其 他 示例 快捷 方式 包括 文献 艺术 家 归属 和 第 一 次 文艺 复兴 状态 文 
献 。 同 样 ， 不 增加 注释 说 明 是 无 法 消除 歧义 的 。 对 于 艺术 家 归属 ， 
CENSUS 管 理 员 需要 做 出 决策 ， 而 不 是 记录 多 个 意见 。 而 对 于 第 一 次 文 
艺 复 兴 状 态 的 记录 ， 定 义 上 只 存在 一 个 唯一 的 实例 。 第 二 次 文艺 复兴 
的 状态 被 记录 成 保存 事件 ， 很 显然 这 是 简化 数据 模型 的 一 个 机 会 。 








保存 和 起 源 事件 是 前 文中 提 到 的 捷径 的 一 个 值得 注意 的 例外 情 
况 。 它 们 指出 特定 的 古迹 是 由 人 物 改变 或 者 展现 在 一 个 特定 的 位 置 、 
特定 的 日 期 ， 正 如 特定 文献 中 所 记录 的 。 保 存 和 起 源 事件 都 很 容易 消 
BRIE X- 








对 文献 的 不 同意 见 可 以 反映 于 多 个 事件 中 ， 把 不 同 的 古迹 、 人 
物 、 地 点 和 日 期 粘 合 在 一 起 。 对 于 实体 对 象 ， 事 件 的 本 质 是 由 特定 的 
连接 来 定义 的 。 因 此 ， 可 以 进一步 对 数据 模型 进行 泛 化 ， 正 如 CENSUS 
所 激发 的 某 些 项 目 如 Winckelmann Corpus (2000) 。 通 常情 况 下 ， 事 
件 可 以 归结 为 所 谓 的 星 形 模式 〈 参 考 Milo 等 2002) ， 包 含 特定 的 连接 
类 型 。 当 前 ， 事 件 类 结构 是 很 多 数据 库 模 型 的 标准 特征 ， 如 
Freebase， 它 们 被 称 为 复合 值 类 型 ( Compound value type) 。 原 则 
上 ， 我 们 还 可 以 使 用 其 他 类 型 的 网 络 查看 这 些 事件 ， 它 们 并 非 非常 明 

， 而 是 内 在 地 作为 新 型 星 形 模式 存在 〈 如 连接 数据 图 ) 。 














通过 提供 很 多 “元 维度 ”( (mtadimensions) 的 信息 源 ， 如 ( 现 
代 ) 文献 目录 ，CENSUS 数 据 库 变 成 了 权威 ， 即 被 引用 。 文 献 目 录 义 进 
一 步 被 划分 成 引用 ， 它 是 由 单独 的 节点 类 型 来 表示 的 。 另 一 个 来 源 维 
度 是 图 像 节 点 类 型 ， 它 包含 从 主要 的 图 像 库 中 拍摄 的 照片 。 同 样 的 ， 
文献 目录 和 图 像 都 有 表示 实体 对 象 功能 ， 它 是 通过 一 些 相 邻 连接 定义 
的 。 





其 他 节点 类 型 包括 : 记录 历史 ,管理 员 把 他 们 的 操作 日 志 记 录 到 
其 他 节点 中 ; 主 条 目 维度 ， 在 把 CENSUS 转 换 成 关系 数据 库 后 可 能 不 会 
再 存在 。 前 者 是 基于 图 形 的 系统 ， 由 于 缺乏 数据 表 ， 需 要 通过 主 条 目 
把 数据 库 分 成 不 同 部 分 ， 把 任务 、 地 点 等 结合 起 来 促进 导航 。 











REM “Aia” 


图 14-3 的 节点 连接 图 是 描述 CENSUS 数 据 模 型 的 众多 可 能 方式 中 的 
一 种 。 正 如 由 节点 和 边 构 成 的 任何 网 络 一 样 ， 我 们 也 可 以 使 用 所 谓 的 
邻接 矩阵 〈 人 参考 Garner 1963; Bertin 1981; Bertin 2001; Henry 
2008) 来 表示 这 个 数据 模型 ， 如 图 14-4 所 示 。 在 这 种 描述 形式 里 ， 节 
点 的 类 型 使 用 表 的 垂直 列 和 水 平行 表示 ， 在 单元 格 中 显示 节点 信息 。 
比如 出 生地 信息 ， 你 可 以 假定 存在 一 条 连接 ， 从 “人 物 ”( (Prson) 所 
在 的 行 穿 过 不 同 单元 格 指 向 了 “位 置 ( (Lcation) 所 在 的 列 。 








类 似 于 节点 连接 图 ， 邻 接 和 矩阵 还 可 以 描述 出 两 种 类 型 的 节点 之 间 
的 连接 数 ， 数 字 显 式 地 出 现在 相应 单元 格 中 ， 而 不 再 通过 如 图 14-3 中 
线条 的 宽度 来 表示 。 这 是 节点 邻接 矩阵 不 同 于 节点 连接 图 的 重大 之 
处 : 我 们 现在 关注 的 主要 是 连接 而 非 节 点 了 。 引 人 注目 的 是 ， 图 14-4 
中 的 矩阵 不 仅 显 示 了 不 同类 型 节点 之 间 的 连接 ， 而 且 非 常 清晰 地 说 明 
了 哪些 节点 类 型 间 没有 直接 关联 。 换 句 话 说 ， 邻 接 矩 阵 可 以 同时 表示 
正 关联 和 负 关 联 关 系 。 其 中 的 一 个 例子 是 不 存在 从 作者 、 出 版 地 点 、 
出 版 日 期 到 文献 目录 的 连接 : 虽然 CENSUS 提 供 了 这 些 信息 ， 但 它 只 存 
在 于 节点 描述 文本 和 节点 标签 缩写 中 《〈 如 Nesselrath 1993) . 4%, 
我 们 从 节点 连接 图 中 也 能 发 现 这 种 信息 缺失 ， 但 是 在 邻接 矩阵 中 这 一 
点 更 为 明显 。 除 了 两 种 节点 类 型 之 间 的 连接 总 数 ， 在 邻接 矩阵 单元 中 























还 可 以 放置 很 多 其 他 有 用 的 信息 。 举 个 例子 ， 如 图 14-5 所 示 ， 我 们 可 
以 看 到 一 个 包含 了 所 有 节点 的 节点 连接 图 以 及 位 于 一 个 单元 格 内 的 表 
示 两 种 节点 间 关 系 的 连接 。 这 个 图 是 我 们 使 用 一 种 布局 算法 《比如 
Cytoscape 应 用 中 的 yFiles 有 机 布局 算法 ) 生成 的 ， 这 是 一 种 运算 成 本 
相对 较 低 的 方法 。 因 此 ， 数 据 库 中 的 所 有 显 式 的 节点 和 连接 数据 都 在 
这 个 数据 模型 矩阵 中 得 到 了 展示 。 
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图 14-5: CENSUS 数 据 模型 的 邻接 矩阵 表示 ， 包 含 节 点 连接 图 ， 即 实 
际 数 据 ( 见 彩 图 118) 
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查看 图 14-5 中 的 结果 ， 我 们 可 以 了 解 这 个 数据 库 中 的 很 多 信息 。 
首先 ， 我 们 发 现 有 些 单元 格 的 结构 看 起 来 更 复杂 ， 而 大 多 数 单元 格 是 
由 一 些 很 枯燥 的 星 形 图 或 者 是 由 仅仅 两 个 节操 连接 在 一 起 的 二 元 图 表 
示 。 我 们 还 发 现 所 有 单元 格 包含 互 不 连通 的 网 络 ， 看 起 来 是 被 分 离 成 





AIS JUPAS TS BUT SC CERES AA 2 POP EL) 。 耐 人 寻味 的 是 ， 

在 这 张 图 中 不 同 部 分 的 大 小 差别 很 大 。 无 论 对 于 哪个 分 文 ， 我 们 看 到 
的 都 是 一 个 “长 尾 ”(〈lng tail) 。 一 个 非常 明显 的 例子 是 “文献 -位 
置 ”( (Dcument-Location) 单 元 格 ， 这 个 单元 格 是 一 个 非常 清晰 地 逐 
渐 消 失 的 星 形 序 列 ， 即 与 单个 位 置 相关 联 的 文献 的 数量 越 来 越 少 ， 即 
使 在 分 布 最 为 局 乎 的 单元 格 中 ， 如 文献 -图 片 单元 格 ， 只 有 少数 几 个 规 
模 相 当 大 的 分 组 ， 而 剩余 的 则 是 二 元 组 。 








在 “位 置 -位 置 ”( (Lecation-Location) 单 元 格 中 ， 还 有 一 种 更 为 
稀 玻 的 “长 尾 ” 形 式 。 这 个 节点 中 包含 的 是 世界 地 理 位 置 分 层 信 息 ， 
根 节点 只 有 一 个 ， 代 表 全 世界 ， 各 级 子 节点 依次 细 分 成 国家 、 地 区 、 
城镇 直到 个 别 地 点 。 每 个 位 置 的 划分 数 也 是 异 构 分 布 。 大 多 数 细 分 位 
于 意大利 境内 ， 世 界 其 他 地 方 的 信息 基本 都 不 显示 。 最 显著 的 位 置 显 
然 是 罗马 ， 它 被 细 分 成 了 很 多 地 区 。 对 罗马 的 突出 显示 使 我 想起 了 人 
类 大 脑 的 感官 神经 模型 的 超大 空间 (Pnfield 和 Rasmussen 1950; 
Dawkins 2005) 一 一 CENSUS 看 似 包含 了 一 个 人 体 模型 。 正 如 大 脑 中 大 
面积 的 运动 皮质 区 是 用 于 手 - 眼 的 协作 和 手 上 的 触觉 感应 。 从 CENSUS 的 
地 理 位 置 分 层 特点 来 看 ，CENSUS 重 点 收集 了 位 于 罗马 的 雕塑 群 。 正 如 
一 个 钢琴 大 师 的 大 脑 皮 层 中 与 灵巧 和 手工 控制 相关 的 部 分 较 之 于 普通 
人 会 占 有 更 多 的 皮层 空间 ，CENSUS 看 起 来 是 专业 定制 的 一 一 如 引入 了 
Ulisse Aldroandi 的 名 著 (1556 年 和 1562 年 》， 它 列 出 了 罗马 的 成 干 
上 万 的 雕塑 (参考 Schich 2009) 。 




















图 14-5 的 另 一 个 有 趣 的 特征 在 于 很 多 单元 格 中 的 不 成 比例 的 大 星 
形 图 。 有 些 星 形 图 是 数据 的 自然 属性 ， 如 连接 到 Bibliographic 节 点 
Bartsch 1854-1870 的 11927 个 文献 节点 ， 或 者 是 出 生 在 意大利 或 罗马 
的 1146 个 人 。 然 而 ， 绝 大 多 数 大 型 星 形 图 和 未 知 条 目 相 关 ， 比 如 不 明 
古迹 、 人 物 、 位 置 、 日 期 或 风格 ， 所 有 这 些 单个 节点 都 和 确定 的 信息 
关联 ， 这 样 有 助 于 进一步 收藏 。 在 我 们 的 数据 集中 ， 存 在 1350 个 无 法 
确定 的 古迹 、5992 个 创作 者 未 知 的 古迹 、5531 个 地 点 未 知 的 古迹 、 
2752 个 创作 日 期 不 明 的 古迹 、2465 个 风格 不 明 的 古迹 ，483 个 参与 者 未 
知 的 遗迹 保护 事件 、559 个 发 生地 点 不 明 的 起 源 事件 。 可 以 确定 的 是 ， 
允许 所 有 这 些 含有 未 知 属性 的 条 目 存 在 并 非 是 一 个 错误 ， 比 如 未 知 日 
期 属性 可 以 驳 倒 一 个 错误 的 文艺 复兴 时 期 的 日 期 属性 。 此 外 ， 这 些 数 
字 还 说 明了 我 们 的 知识 的 局 限 性 。 另 一 个 考虑 是 如 果 我 们 想 要 分 析 每 
个 单元 的 网 络 结构 ， 我 们 需要 绕 开 (或 者 具体 化 ) 未 知 节点 ; 否则 ， 
以 地 理 节 点 为 例 ， 位 置 未 知 的 节点 会 将 很 多 位 于 不 同 地 方 的 未 被 关联 
的 节点 连接 起 来 。 




















减少 复杂 性 





如 果 我 们 回 过 头 再 去 查看 图 14-3， 我 们 会 发 现 CENSUS 数 据 库 中 共 
有 31197 条 文献 记录 ， 其 中 只 有 3087 个 节点 连接 到 了 主 条 目下 的 文献 管 
理 处 。 这 说 明了 一 个 重要 事实 : 数据 库 中 的 大 量 文献 是 以 节点 树 的 形 
式 组 织 的。 实际 上 只 有 3087 个 文献 ， 包 括 28110 个 子 节点 ， 这 些 子 节点 
被 用 来 表示 页 数 、 图 形 和 那些 图 形 或 文本 段落 内 的 各 个 部 分 一 一 一 个 
直到 现在 仍然 很 少 为 人 们 所 探讨 的 数据 库 的 事实 。 古 迹 也 存在 同样 的 
MA: 只 有 少量 的 记录 (特别 是 结构 分 类 ) 可 以 划分 成 包括 建筑 部 
件 、 房 间 甚 至 是 很 小 的 建筑 装饰 上 的 特征 。 第 三 个 例子 是 文献 目录 ， 
它 被 进一步 划分 成 了 多 种 引用 ， 比 如 在 现代 学 术 著 作 中 的 文本 段落 。 














如 图 14-5 中 所 示 ， 引 入 这 些 子 分 类 的 结果 是 特定 连接 指向 或 者 源 
自 特 定子 节点 : 从 部 分 古迹 指向 部 分 文献 ， 而 不 是 整个 古迹 指向 整个 
文献 ， 或 者 从 表示 装饰 特征 的 某 个 列 指向 特定 的 速写 图 中 的 一 部 分 。 
这 些 划分 使 得 无 重大 信息 损失 的 数据 存储 成 为 可 能 。 然 而 ， 在 这 个 配 
置 中 我 们 可 以 解决 的 问题 通 冲 过 于 有 具体。 为 了 揭示 更 为 有 趣 的 全 局 性 
属性 并 回答 诸如 一 组 古迹 中 有 多 少 手 抄本 出 现 〈 而 不 是 总 共有 多 少 图 
形 ) ， 或 者 它们 在 书籍 中 被 引用 的 频率 《而 不 是 总 共有 多 少 引用 ) 之 
类 的 问题 ， 我 们 需要 改善 邻接 矩阵 图 。 该 问题 的 一 个 解决 方案 是 折 芋 











如 图 14-6 中 的 各 个 子 分 类 下 的 文献 、 古 迹 和 文献 目录 引用 节点 ， 图 14- 
7a 所 示 的 是 据 此 重新 绘制 而 得 到 新 的 邻接 矩阵 图 。 


把 文献 、 上 古迹 和 文献 目录 引用 树 折 双 成 单个 节点 的 方法 如 下 参 
考 Schich 2009) 。 在 图 14-6a 中 ， 我 们 首先 找到 原始 文献 树 : 一 本 包 
含 很 多 页 的 书 ， 被 划分 成 多 个 子 图 形 。 单 个 连接 指向 多 个 古迹 或 者 古 
迹 的 一 部 分 。 为 了 对 树 进 行 折 熙 ， 我 们 把 书 表示 成 单个 节点 ， 并 把 所 
有 和 子 划分 相 邻 的 连接 组 合 起 来 ， 如 图 14-6a 所 示 。 为 了 保存 尽 可 能 
多 的 信息 ， 我 们 给 新 的 节点 分 配 权 重 ， 用 来 表示 被 折 受 起 来 的 子 分 类 
数 ， 给 连接 分 配 另 一 个 权 值 ， 用 于 表示 在 书 中 出 现 的 连接 的 次 数 。 从 
图 形 上 看 ， 权 值 对 应 节点 大 小 和 线条 宽度 : 书 的 节点 越 大 ， 在 它 的 折 
县 树 中 包含 的 子 节点 数 越 多 ; 线条 越 粗 ， 连 接 越 多 。 以 实际 数据 为 
例 ， 原 始 矩 阵 的 “文献 -文献 ”( (Dcument-Document) 单 元 格 中 的 每 个 
文献 树 都 将 会 被 归 约 成 单个 节点 ， 如 图 14-6b/b 所 示 。 在 原始 状态 中 
看 起 来 很 繁琐 或 简单 的 矩阵 单元 在 折 琶 后 变 得 复杂 而 有 趣 ， 如 图 14- 
6c/c’ 中 所 示 的 “文献 -古迹 ”( (Dcument-Monument) 单元 格 。 
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图 14-8: 改善 后 的 CENSUS 数 据 模 型 ， 包 含 出 入 度 分 布 图 〈 见 彩 图 
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如 图 14-6c 所 示 ， 改 善后 的 单元 格 的 最 显著 特征 是 出 现 了 所 谓 的 
最 大 连通 分 支 ( (Gant Connected Component, GCC) ， 它 连接 了 CENSUS 
数据 库 中 接近 90% 的 古迹 和 文献 一 一 即 存在 于 很 多 复杂 网 络 中 的 相 变 
( (pase transition) 现 象 ， 并 诞生 了 很 多 关于 信息 传播 的 重要 理论 
( (Nwman、Barabdsi 和 Watts 2006; Schich 2009) 。 在 最 大 连通 分 支 
的 中 心 ， 我 们 发 现 一 个 庞大 的 建筑 古迹 群 ， 它 连接 到 了 很 大 的 概览 文 
献 节 点 ， 如 指南 、 手 册 和 城市 地 图 。 在 最 大 连通 图 周边 的 一 个 令 人 惊 
讶 的 特征 是 存在 大 量 的 连接 到 大 文献 节点 的 像 刷子 一 样 的 结构 : 
然 ， 在 CENSUS 中 有 很 大 一 部 分 的 古迹 都 连接 到 了 同一 个 文献 ， 这 或 者 
是 因为 文献 本 身 缺 乏 足够 的 信息 ， 或 者 是 因为 〈 也 可 能 是 其 他 任何 原 
) 管理 员 没 有 识别 出 该 文献 并 对 它 进行 泛 化 。 














因为 文献 、 古 迹 和 文献 目录 树 是 折 车 的， 它 对 整个 矩阵 都 有 影 
响 。 实 际 上 ， 对 角 单 元 格 “文献 -文献 ”( (Dcument-Document) 和 “证 
迹 - 古 迹 ”( (Mnument-Monument) 很 少 存 在 ， 只 有 一 些 很 有 趣 的 连接 ， 
如 原型 引用 和 并 行 拷贝 关系 。“ 引 用 -文献 目录 ”( (Ctation- 
Bibliography) #7046 U ENA ER. 
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阵 上 执行 很 多 其 他 操作 ， 如 图 14-5 所 示 。 对 于 任何 邻接 矩阵， 我 们 可 
以 对 列 按照 水 平 轴 、 对 行 按 照 垂 直 轴 进行 排序 〈 或 预计 算 ) ， 而 且 不 
会 丢失 任何 信息 ( (Brtin 1981; Bertin 2001) 。 我 们 还 可 以 对 单元 
格 进行 变换 ， 如 将 古迹 -事件 单元 转换 到 事件 -古迹 单元 ， 甚 至 是 将 整 
个 文献 目录 列 转移 到 文献 目录 行 ， 从 而 有 效 地 翻转 连接 方向 。 最 后 ， 
我 们 可 以 通过 对 节点 创建 超级 类 型 〈 如 事件 、 古 迹 和 文献 目录 ) 的 方 
式 对 相同 的 节点 类 型 〈 如 起 源 和 保存 事件 ( (Povenance and 
Preservation Events) 、 古 迹 和 副本 、 或 者 是 文献 目录 和 引用 ) 进行 
归并 。 这 种 归并 方式 可 以 减少 矩阵 中 列 和 行 的 数目 ， 允 许 每 个 单元 格 
在 可 视 化 中 占 据 更 大 的 空间 。 此 外 ， 和 矩阵 可 视 化 方面 的 资料 还 介绍 了 
很 多 其 他 可 能 的 操作 (参考 Henry 2008) 。 
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图 14-7a 和 pb 显示 了 目前 讨论 的 优化 操作 的 最 终结 果 。 整 个 邻接 矩 
阵 变 得 更 简洁 、 清 晰 和 信息 丰富 。 我 们 可 以 很 容易 地 看 到 CENSUS 数 据 
在 数据 模型 内 是 如 何 分 布 的 : 古迹 -和 文献 目录 -显然 类 似 于 古迹 
献 ， 展 现 的 数据 信息 量 都 很 大 。 方面 ， 对 于 文献 -文献 和 古迹 - 古 
迹 依赖 关系 〈 如 引用 ) ， 甚 至 是 在 数据 模型 中 所 显示 的 各 个 连接 ， 则 
几乎 没有 任何 数据 。 显 然 ， 数 据 收集 工作 流 没 有 以 正确 的 方式 来 系统 
性 地 收集 这 类 信息 。 与 在 原始 矩阵 中 状况 一 样 ， 我 们 在 每 个 改善 后 的 
单元 格 中 都 发 现 了 分 支 大 小 的 “长 尾 ” 现 象 。 有 些 单元 还 是 主要 包含 
星 形 图 ， 这 对 于 每 个 古迹 涉及 的 事件 数 、 每 个 文献 /古迹 的 图 像 ， 每 个 
文献 的 雕刻 或 者 每 个 位 置 发 生 的 事件 ， 都 是 适用 的 。 对 于 文献 -位 置 单 
元 的 一 个 有 趣 之 处 是 我 们 发 现 了 大 的 文献 节点 跨越 了 所 有 集合 ， 从 佛 
罗 伦 萨 的 Uffizi 到 每 个 包含 单个 手册 的 个 人 收集 。 其 他 单元 表现 出 更 

又 的 结构 ， 如 在 文献 和 古迹 中 的 重 革 日 期 (或 者 时 间 范 围 ) 、 或 者 
是 从 风格 到 电子 古迹 如 《the Arch of Constantine》， 它 们 一 起 显示 
了 罗马 帝国 时 期 不 同 的 浮 难 。 当 然 ， 古 迹 - 文 献 和 相关 的 文献 目录 包含 
最 复杂 的 重 登 ， 因 为 该 单元 是 CENSUS 项 目的 重心 。 
































数据 规模 扩大 


网 络 领 域 的 读者 可 能 会 指出 在 矩阵 中 使 用 市 扣 连 接 图 ， 如 图 14-7a 
所 示 ， 对 于 比 CENSUS 数 据 库 大 一 个 量 级 的 数据 集 是 不 可 行 的 ， 更 不 用 
说 庞大 的 语义 Wep。 确 实 ， 这 是 一 个 问题 ， 因 此 问题 是 如 何 对 以 上 方法 
进行 扩展 ， 使 它 可 以 适用 于 真正 的 大 型 数据 库 。 一 个 解决 方案 是 使 用 
维度 分 布 图 ， 甚 至 更 复杂 的 数值 网 络 衡量 方式 ， 在 数据 模型 中 获取 关 
于 实际 数据 的 想法 。 





如 图 14-8 所 示 ， 我 们 为 矩阵 单元 中 的 每 个 连接 类 型 描绘 了 一 张 累 
积 入 度 和 出 度 分 布 曲 线 图 ( (Boder 等 2000; Newman 2005) 。 由 于 每 条 
连接 相当 于 源 节点 类 型 的 出 度 、 目 的 节点 类 型 的 入 度 ， 对 于 单元 中 的 
每 条 连接 都 有 两 个 分 部 。 每 条 曲线 的 x 轴 表 示 连 接 数 k; y 轴 表示 累积 概 
KP) ， 每 个 节点 至 少 包含 k 条 连接 。 注 意 分布 曲 线 是 以 双重 对 数 尺 
度 描绘 的 ， 这 意味 着 每 个 刻度 是 表示 在 y 轴 上 从 100% 到 0. 01% 快 速 衰 
减 ， 而 在 x 轴 上 是 从 1 到 3000 的 快速 增长 。《〈 在 规则 线性 投影 中 ， 每 个 
分 部 的 倾斜 度 很 高 ， 我 们 无 法 找 出 任何 有 趣 的 内 容 。) 令 人 吃惊 的 
是 ， 在 这 些 曲线 图 中 都 不 存在 我 们 所 期 望 的 高 斯 钟 形 曲线 ， 如 人 的 平 
HAR. MR, RIEME IHE KÆ” D, ARIAN H E 
律 曲线 一 直到 对 数 -线性 曲线 ， 中 间 是 一 些 较 混杂 的 分 布 曲线 。 





几乎 所 有 的 入 度 和 出 度 对 看 起 来 都 是 不 对 称 的 。 举 个 例子 ，“ 出 
生日 期 ”和 “人 物 ” 是 以 1: n 的 方式 连接 的 ， 而 n 值 的 变化 很 大 。 这 也 
不 奇怪 ， 因 为 该 信息 区 并 不 受 大 众 不 同 的 观点 所 影响 ， 正 如 人 人 脸 图 像 
数据 库 那 样 ， 它 的 重点 在 于 人 物 而 不 是 事物 。 其 他 区 域 如 保存 事件 发 
生 的 位 置 ， 呈 现 出 接近 精确 的 1: n 约 束 关 系 ， 因 为 一 个 事件 很 少 但 不 
古 不 可 能 出 现在 多 个 地 理 位 置 。 在 真正 的 n:n 关 系 中 发 现 了 最 有 趣 的 不 
对 称 性 ， 如 中 心 古 迹 - 文 献 连接 ， 我 们 在 连接 两 边 都 发 现 了 不 同 的 倾斜 
分 布 。 目 前 ， 应 该 如 何 充分 解释 该 不 对 称 性 还 不 完全 明确 ; 但 是 ， 通 
过 比较 很 多 数据 源 ， 显 然 这 些 不 同 的 分 布 是 由 很 多 因素 导致 的 ， 如 对 
源 数 据 的 物理 限制 和 可 访问 性 ， 以 及 管理 员 的 关注 和 其 他 认 知 限制 。 


























CENSUS 中 所 发 现 的 唯一 对 称 关 系 是 “文献 -文献 ”和 “证 迹 -证 
迹 ” 单 元 间 的 多 份 拷贝 和 多 份 副本 连接 。 理 想 情 况 下 ， 入 度 和 出 度 分 
布 应 该 是 完全 一 致 的 ， 因 为 相关 节点 会 全 部 连接 到 所 谓 的 “ 簇 集 ” 

( Ccique) 中 。 实 际 上 ， 入 度 和 出 度 这 两 种 连接 类 型 都 随 着 进一步 取向 
分 布 的 “尾巴 ”而 变 得 更 加 不 对 称 ， 因 为 很 难 维护 大 的 簇 集 。 正 如 我 
在 2003 年 对 CENSUS 项 目 提 出 的 建议 ， 连 接 到 包含 n 条 连接 的 未 知 “ 文 

献 ” 比 n 份 拷贝 之 间 通 过 手工 生成 a* (n-1) 个 连接 要 更 有 意义 。 








同样 ， 我 们 在 图 14-7 中 观察 到 的 一 些 关 系 ， 如 “古迹 -文献 目录 ” 
和 “古迹 -文献 ”之 则 呈现 等 价 关 系 ， 在 图 14-8 中 得 到 进一步 确证 
( (Shich 和 Barabasi 2009) 。 这 些 单 元 之 间 不 仅 呈 现 出 很 明显 的 相似 





关系 ， 而 且 在 单个 单元 格 的 不 同 连接 类 型 中 也 发 现 了 同样 的 功能 对 等 
关系 。 一 个 很 有 说 服 力 的 例子 是 在 “文献 -古迹 ”单元 ， 一 般 的 文献 和 
文艺 复兴 时 期 的 第 一 个 文献 之 间 的 分 布 曲 线 几 乎 是 水 平 的 ， 而 对 于 
“事件 -文献 ”单元 ， 起 源 和 保存 文献 也 呈现 类 似 的 曲线 。 在 “位 置 ” 
这 一 列 ， 其 入 度 在 所 有 相关 的 单元 中 都 呈现 非常 相似 的 分 布 曲 线 。 观 
守 到 的 两 个 例外 是 在 每 个 位 置 包含 一 个 或 两 个 古迹 的 概率 曲 线 龟 剧 下 
降 〈 因 为 有 很 多 位 置 不 明 的 古迹 ) ， 而 “位 置 -位 置 ” 单 元 的 “长 尾 ” 
分 布 的 “尾巴 ” 则 不 断 上 升 “由 于 人 造物 现象 引起 ) 。 











最 后 一 点 ， 我 们 可 以 观察 到 所 有 的 曲线 都 是 包含 所 有 节点 类 型 的 

节点 ， 这 是 所 有 以 单个 连接 类 型 组 成 的 单个 网 络 的 内 在 特征 。 
查看 每 条 曲线 穿 过 y 轴 的 值 可 以 说 明 很 多 信息 ， 如 少 于 15% 的 图 像 是 连 
接 到 上 古迹， 而 少 于 40% 的 是 连接 到 文献 。 反 之 ，CENSUS 项 目的 出 版 合作 
伙伴 在 1994 年 扫描 的 共 24000 张 图 片 中 ， 我 们 可 以 确定 至 少 有 45% 的 图 
片 在 2005 年 还 没有 添加 到 数据 库 中 。 





深层 次 应 用 


本 章 介 绍 的 可 视 化 可 以 作为 各 种 活动 的 起 点 。 除 了 资助 人 和 项 目 
负责 人 所 做 的 具体 项 目 目标 的 评估 ， 进 一 步 的 研究 领域 包括 识别 有 趣 
的 研究 课题 : 矩阵 中 的 每 个 单元 都 可 以 进行 广泛 研究 ， 正 如 我 的 博士 
论文 主要 研究 古迹 文献 和 可 视 化 文献 引用 (Shich 2009) 。 很 多 单元 
都 展示 出 有 趣 的 交互 ， 可 以 结合 在 这 种 研究 中 。 举 个 例子 ， 为 了 对 在 
时 间 和 空间 上 涉及 很 多 事件 的 物体 和 人 物 建 立 轨 迹 (〈Gnz6klez、 
Hidalgo#llBarabasi 2008) ， 或 者 为 了 研究 网 络 交 互 效果 (〈Licht 和 
D Souza 2009) 。 最 后 ， 可 以 使 用 很 多 等 价 可 视 化 来 比较 已 经 使 用 了 
相似 的 数据 模型 的 整个 数据 库 ， 如 Winckelmann 语 料 库 和 CENSUS 数 据 
库 ， 或 者 可 以 映射 到 相同 标准 如 CIDOC CRM 的 数据 库 。 





此 外 ， 如 果 不 按照 本 章 所 述 的 方法 对 数据 库 进 行 分 割 ， 在 类 似 的 
可 视 化 中 结合 不 同 的 网 络 也 是 很 有 趣 的 。 在 可 能 的 网 络 多 元 世界 中 也 
可 以 很 容易 找到 这 些 结合 〈 举 个 例子 ， 引 用 、 多 名 作者 共有 著作 权 、 
社会 科学 中 的 图 像 标 记 数 据 库 或 生物 学 中 的 基因 转录 、 人 蛋白质 相 互 作 
用 和 基因 疾病 数据 库 ) 。 


通过 对 文献 、 古 迹 和 文献 目录 树 进行 折 阁 ， 粗 粒度 显示 也 可 以 通 
过 很 多 其 他 方式 实现 ， 举 个 例子 ， 基 于 特定 子 树 折 狼 或 者 是 更 复杂 的 
方法 如 “区 块 建 模 ”( (bockmodelling) ( (Wssermann 和 和 Faust 1999) 





或 者 社区 发 现 ( CLncichinettifllFortunato 2009; Ahn, Bagrow#ll 
Lehmann 2009) ， 切 实 解决 如 何 真 正定 义 网 络 中 的 节点 和 连接 ( (Btts 
2009) 。 


最 后 ， 本 章 给 出 的 矩阵 和 节点 -连接 图 组 合 可 以 进一步 扩展 ; 比如 
在 数据 模型 的 相关 单元 中 替换 节点 -连接 /矩阵 组 合 ( 〈Hnry、Fekete 和 
McGuffin 2007) 或 者 可 扩展 的 图 像 窍 阵 ( (Shich、Lehmann 和 Park 
2008) 。 





结束 语 


正如 本 章 所 述 ， 丰 富 完 善后 的 数据 模型 矩阵 对 于 数据 库 项 目的 评 
估 是 非常 有 用 的 ， 它 揭秘 了 很 多 非 直观 的 数据 属性 ， 这 些 属性 难以 简 
单 地 通过 数据 库 或 者 常用 的 质量 指标 来 捕捉 。 由 于 数据 以 关联 数据 

( CLnked Data), 、RDF 图 和 关系 表 导 出 的 形式 变 得 更 易于 访问 ， 项 目 资 
助人 或 负责 人 可 以 应 用 以 上 提出 的 方法 ， 以 几乎 自动 化 的 过 程 在 很 短 
的 时 间 内 实现 。 














本 章 所 示 的 可 视 化 是 第 一 个 呈现 了 整个 CENSUS 数 据 库 的 大 图 ， 我 
们 可 以 从 中 看 到 最 初 的 数据 模型 定义 和 在 收集 到 的 数据 中 的 新 兴 的 复 
杂 的 数据 结构 。 通 过 查看 这 些 可 视 化 ， 我 们 发 现 项 目 描述 中 给 出 的 很 
多 数字 都 是 不 完整 甚至 是 误导 人 的 。 有 些 新 的 数据 可 能 比 最 初 给 出 的 
值 小 ， 我 们 从 分 析 中 汲取 的 一 点 教训 是 : 有 时 少 即 是 多 一 一 多 了 就 不 
同 了 ( (Aderson 1972) 。 
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Archaologie. 


第 15 章 ”1994 年 : 基于 《纽约 时 报 》 上 的 
文章 搜索 API 的 数据 探索 ”JerThorp 


2009 年 2 月 份 ，《 纽 约 时 报 》 宣 布 将 它 28 年 的 数据 向 公众 开放 一 一 
新 闻 故 事 、 电 影评 论 、 计 告 和 政治 统计 ， 全 部 都 可 以 免费 访问 。 面 对 
如 此 庞大 的 信息 量 ， 即 约 260 万 篇 文章 ， 我 们 需要 面临 着 3 个 重要 问 
题 。 如 何 获取 我 们 需要 的 数据 ? 如 何 处 理 这 些 数据 ?以 及 可 能 是 最 重 
要 的 ， 为 什么 要 做 这 件 事 ? 本 章 将 尝试 回答 以 上 这 些 问题 。 我 们 将 了 
解 如 何 使 用 《纽约 时 报 》 文 章 搜索 API (NYTimes Article Search API) 





( (htp: //developer. nytimes. com/docs/article search api) Xið 
lai, Bea —HESC A AI PROT CE HEAT CE TR ABS TET) 
艺术 家 、 企 业 家 、 设 计 师 和 社会 科学 家 的 探索 之 门 是 如 何 开局 的 。 








获取 数据 : 文章 搜索 API 





“API” 是 众多 3 个 字母 缩写 词 之 一 ，3 字 母 缩 写 词 只 包含 3 个 字 
母 ， 直 接 包含 的 含义 很 少 ， 即 使 知道 API 的 全 称 : 应 用 程序 编程 接口 
( (aplication programming interface)， 人 仍然 难 以 确定 这 个 缩写 的 
含义 。 这 个 缩写 相当 通用 ， 在 软件 开发 领域 中 被 广泛 应 用 ， 通 音 是 为 


了 使 一 个 软件 和 男 一 个 软件 可 以 通信 。 如 果 我 们 把 数据 库 想 象 成 存储 
言 轧 的 实体 仓库 ， 那 么 API 就 是 运输 和 接收 部 门 ， 而 且 对 外 开放 。 


总 之 ， 通 过 API 进 行 交 互 非常 简单 。 同 API 发 送 一 条 请 求 〈 该 请 求 
可 以 非常 简单 ， 也 可 以 非常 复杂 ) ， 该 API 会 给 我 们 发 回 一 串 格 式 化 的 
言 轧 。 不 同 API 之 间 通 信 的 语法 以 及 同 我 们 发 回 的 啊 应 信息 的 格式 有 很 
大 区 别 。 有 些 API 的 功能 非常 少 ， 而 有 些 API 功 能 则 很 强大 ， 包 含 很 多 
有 用 的 功能 。 幸 运 的 是 ， 在 我 们 看 来 ，《 纽 约 时 报 》 的 文章 搜索 API 是 
功能 最 强大 、 结 构 最 民 好 的 API 之 一 。 


那么 ， 我 们 能 够 同 API 发 送 什么 请 求 呢 ? 通过 一 些 简单 的 请 求 ， 
API 可 以 回答 以 下 任何 一 个 问题 ， 而 且 数量 上 几乎 没有 限制 : 





© 1982 年 发 表 了 多 少 文章 ? 


”天 于 欺诈 的 文章 中 ， 哪 个 企业 组 织 被 提 及 最 多 ? 





”在 1991 年 天 于 时 尚 的 文章 中 ，“ 超 色 ”( Chpercolor) kie xg 


我 们 先 来 尝试 一 个 简单 的 问题 : 在 1994 年 ， 有 多 少 文章 提 到 
0. J. Simpson |) ? 可 以 通过 几 种 不 同 的 方法 向 API 发 送 这 个 问题 ， 它 
们 都 需要 发 送 一 个 指向 特定 URL 的 HTTP 请 求 ， 在 该 请 求 中 可 以 加 上 一 些 
可 选 的 参数 。 以 下 是 最 简单 的 请 求 : 








http://api. nytimes. com/svc/search/vl/article? 


query=0. J. +Simpson 


该 请 求 会 给 我 们 返回 数据 库 中 包含 字符 串 “0. J. Simpson” WY ATA 
的 文章 (数据 库 中 存储 了 从 1981 年 至 今 的 所 有 文章 ) 。 为 了 限制 为 
1994 年 的 文章 ， 我 们 给 该 查询 增加 了 一 些 额外 参数 : 


http://api. nytimes. com/svc/search/vl/article? 


query=0. J. tSimpson& begin date=19940101&end date=19950101 


最 后 ， 该 API 会 记录 访问 者 的 信息 并 确保 没有 用 户 超 过 发 布 的 最 大 
限制 值 。 因 此 ， 我 们 每 次 调用 API 时 ， 都 必须 在 查询 请 求 中 加 上 一 串 
API 密 钥 ， 该 密 钥 是 《纽约 时 报 》 系 统 为 每 个 用 户 生成 的 一 串 唯 一 的 字 
符 串 [2] 。 


http://api.nytimes. com/svc/search/vl/article? 
query=0. J. tSimpson& begin date=19940101 &end date=19950101 & 
api-key=laf8]1d#HHHHHHHHAHHHHHHHHHHHHH: HH: HHAHHHHH 


如 果 你 继续 往 下 操作 ， 把 该 请 求 粘贴 到 浏览 器 地 址 栏 〈“ 用 你 自己 
的 API 密 钥 取代 # 内 容 ) ， 你 将 会 得 到 一 些 请 求 结 果 ; 查看 数据 源 ， 得 
到 API 返 回 的 真正 数据 。 返 回 给 我 们 的 数据 是 以 JSON 格 式 封 装 ， 我 们 将 
在 本 章 的 后 面 详细 介绍 该 格式 。 在 返回 的 数据 块 的 下 方 ， 我 们 能 够 找 
到 以 上 问题 的 答案 : 2218。 











我 们 将 把 这 些 请 求 封 装 成 一 个 多 功能 的 包 ， 这 些 请 求 是 本 章 的 基 
础 。 对 文章 搜索 API 的 任何 请 求 都 是 通过 这 种 通用 的 方式 进行 构建 的 ， 
如 图 15-1 所 示 : 





基础 URL+ 碍 询 + 维度 + 额外 参数 +API 密 钥 


基础 URL + 查询 





图 15-1: 《纽约 时 报 》 文 章 搜索 API 请 求 总 是 通过 几 个 相同 的 关键 项 
来 构建 的 


其 中 有 些 项 《〈 碍 询 ，API 密 钥 ) 是 必需 的 ， 而 其 他 一 些 项 则 是 可 选 
的 (额外 参数 ， 维 度 ) 。 然 而 ， 基 础 结构 一 直 没 有 改变 ， 基 本 方法 也 
一 样 保持 不 变 : 向 API 发 送 一 个 请 求 ， 得 到 一 个 请 求 结果 。 但 是 ， 我 们 
真正 希望 实现 的 是 可 以 向 API 发 送 很 多 请 求 ， 得 到 很 多 请 求 结果 。 为 了 
实现 这 一 点 ， 我 们 需要 一 个 更 好 的 系统 ， 而 不 是 简单 地 在 Web 浏 览 露地 
址 栏 中 执行 拷贝 和 粘贴 。 











[1] 0.J Simpson 是 橄榄 球 兼 电影 明星 ， 因 谋杀 妻子 案 审 判 ， 在 美国 引 
EKo 。 后 面 会 介绍 更 多 。 

|2] 在 nytimes. com 上 登录 你 的 账户 ， 访 问 

http: //developer. nytimes.com, ith “Getting Started” 标 题 下 
Hy “Request an API key” o 


管理 数据 : 使 用 Processing 编 程 语 言 


在 20 世 纪 90 年 代 ， 美 国 艺术 家 Mark Lombardi 创 作 了 一 系列 非常 复 
杂 的 绘画 作品 〈 他 称 之 为 “叙事 式 结构 ”( (nrrative 
structures) ) ， 这 些 作品 揭露 了 涉及 政治 和 金融 诈骗 的 人 们 和 企业 组 
织 之 间 的 关系 。Lombardi 认 真 地 梳理 报纸 文章 和 杂志 ， 手 工 记录 他 的 
发 现 。 他 既 没有 一 个 可 以 发 送 请 求 的 API， 也 没有 任何 数据 库 或 软件 来 
存储 其 结果 。 相 反 地 ，Lombardi 积 累 了 14000 多 张 索 引 卡 片 ， 把 所 有 的 
问题 和 答案 都 记录 到 这 些 卡 片上 ， 并 根据 这 些 卡片 描绘 其 历史 图 表 
( 见 图 10-1) 。 





除非 你 碰巧 有 几 千 张 索引 卡片 和 几 周 的 业余 时 间 来 做 这 件 事 ， 否 
则 我 们 就 需要 找 出 一 种 更 快捷 的 方式 来 管理 所 有 的 问题 和 答案 。 借 助 
一 人 台 计 算 机 ， 解 决 这 个 问题 的 方式 会 有 很 多 种 ， 有 很 多 不 同 的 软件 工 
具 和 编程 语言 都 可 以 实现 该 任务 。 我 使 用 了 一 种 称 为 Processing 的 编 
程 语 言 来 处 理 数据 ， 在 本 章 的 例子 中 也 将 使 用 该 语言 。Processing 可 
以 免费 下 载 ， 而 且 使 用 相对 简单 。 本 章 将 假定 你 已 经 下 载 并 安装 了 
Processing (如 果 你 需要 帮助 ， 请 访问 Processing 的 官方 网 站 : 








http: //www. processing. org)» 





在 最 后 一 节 ， 我 将 演示 如 何 使 用 《纽约 时 报 》 的 文章 搜索 API 发 送 
请 求 并 得 到 JSON 格 式 的 啊 应 结果 。 我 们 将 使 用 Processing 来 管理 请 





求 ， 解 析 并 存储 啊 应 结果 ， 然 后 把 结果 显示 在 屏幕 上 。 这 个 过 程 最 复 
杂 的 部 分 是 处 理 返 回 的 JSON 格 式 的 请 求 结果 。 我 将 使 用 以 前 写 过 的 一 
些 简单 的 Processing 人 代码， 而 不 是 长 篇 大 论 地 告诉 你 应 该 如 何 构建 自 
己 的 引擎 ， 这 样 可 以 使 这 个 说 明 过 程 变 得 更 简单 。 我 把 用 于 处 理 文章 
搜索 API 的 很 多 关键 函数 功能 封装 成 了 一 个 库 ， 你 可 以 从 


http: //www. blprnt. com/ libraries/nytimes 下 载 。 


安装 Processing 库 很 简单 ， 只 需要 简单 地 把 解压 后 的 文件 夹 拖 到 
绘图 本 的 库 所 在 的 目录 (同样 ， 如 果 需 要 帮助 ， 请 访问 
http: //www. processing. org) 。 如 果 你 想 了 解 这 些 库 的 内 部 实现 ， 该 
项 目 是 开源 的 ， 你 只 需要 用 Google 搜 索 就 能 够 得 到 需要 的 链接 。 但 
是 ， 目 前 你 需要 了 解 的 是 你 可 以 利用 库 中 的 函数 功能 来 做 一 些 有 意义 
的 事情 。 首 先 ， 我 们 一 起 来 看 看 如 何 使 用 这 个 库 向 API 发 送 一 个 前 面 提 
到 的 关于 0. J. 问题 的 请 求 。 


站 先 ， 我 们 通过 导航 条 中 “绘图 导入 ( (Setch Import) 库 ”的 下 
拉 菜 单 导入 “ 《纽约 时 报 》 的 文章 搜索 ( (CNTArticleSearch) 库 ”。 然 
后 ， 设 置 画布 大 小 ， 并 把 背景 设置 成 鲜亮 的 白色 : 

import blprnt. nytimes. *; 


size (800, 350) ; 
background (255) ; 





接着 ， 我 们 开始 通过 API 密 钥 对 库 进 行 初始 化 : 





TimesEngine. init (this, ”“YOUR-API-KEY-GOES-HERE” ) ; 


下 一 步 ， 我 们 将 创建 TimesArticleSearch 对 象 来 管理 请 求 ( 查 
询 ) 和 结果 (回复 ) : 


TimesArticleSearch mySearch=new TimesArticleSearch () ; 


这 个 简单 的 对 象 可 以 帮助 我 们 发 出 任何 需要 使 用 文章 搜索 API 的 请 
求 。 我 们 先 来 发 送 一 个 类 似 于 之 前 的 关于 1994 年 的 问题 的 查询 ， 这 次 
把 结果 限制 在 1994 年 和 1995 年 : 

mySearch. addQueries (”0.J.+Simpson” ) ; 

mySearch. addExtra ("begin date”, ”19940101”) ; 

mySearch. addExtra ("end date”, “19960101” ) ; 


TimesArticleSearchResult r=mySearch. doSearch () ; 
println (”RESULTS ABOUT 0. J.: “tr. total); 


这 看 起 来 似乎 比 我 们 的 第 一 个 例子 稍 复杂 些 ， 在 第 一 个 例子 中 ， 
我 们 发 送 的 只 是 一 个 http 请 求 ， 但 是 在 这 个 例子 中 ， 我 们 不 需要 处 理 
JSON 格 式 的 数据 ， 而 且 有 充分 的 自由 来 定制 搜索 。 文 章 搜 索 API 为 我 们 
提供 很 多 对 搜索 请 求 进行 结构 化 的 选项 ， 人 允许 我 们 实现 非常 具体 或 者 
非常 通用 的 请 求 。 











先 考虑 一 下 搜索 。 我 们 向 API 发 送 请 求 ， 查 找 在 1994 年 或 1995 年 发 
表 的 、 包 含 字 符 串 “0. J. Simpson” 的 所 有 文章 。 那 么 ， 对 于 包含 
Orenthal James Simpson 的 文章 是 人 否 会 被 包含 在 结果 之 中 呢 ? 或 者 只 





450. J. Wb? 或 者 包含 “The Juice” ME? 文章 搜索 API 的 一 个 强大 
之 处 在 于 它 和 《纽约 时 报 》 的 编辑 机 构 关 联 在 一 起 。 当 《纽约 时 报 》 
发 表 了 一 篇 文章 ， 该 文章 会 通过 一 组 编辑 信息 来 索引 。 该 信息 是 由 人 
们 手工 添加 和 规范 化 的 ，API 可 以 访问 该 信息 并 使 搜索 更 有 效 。 对 于 该 
例子 ， 我 们 不 需要 查看 短语 “0. J. Simpson”， 而 是 可 以 通过 合适 的 维 
度 标签 来 找到 和 “0.J. Simpson” 匹 配 的 结果 《〈 即 “SIMPSON, 0 
care E 

















编辑 人 员 会 把 该 维度 添加 到 任何 提 到 或 引用 过 0. J. 的 文章 中 ， 不 
论文 章 正 文 使 用 了 什么 名 字 。 因 此 ， 搜 索 如 下 : 


import blprnt.nytimes. *; 

size (800, 350) ; 

background (255) ; 

TimesEngine. init (this, “YOUR-API-KEY-GOES-HERE” ) ; 

TimesArticleSearch mySearch=new TimesArticleSearch (” YOUR-API- 
KEY-GOES-HERE” ) ; 

mySearch. addFacetQueries (“per facet”, “SIMPSON,O J”) : 

mySearch. addExtra (“begin date”, ”19940101”) ; 

mySearch. addExtra ("end date”, “19960101” ) ; 

TimesArticleSearchResult r=mySearch. doSearch () ; 

println (”RESULTS ABOUT 0. J.: “tr. total); 








AE FA HE JE BY RE RF oh Ef ER H EI BS PE A AT hs 
准 名 字 是 什么 。 访 问 该 信息 的 一 个 简单 的 方法 是 使 用 《纽约 时 报 》 的 
API 请 求 工具 ， 在 
http: //prototype. nytimes. com/gst/apitool/index. html 可 以 获 
取 。 该 工具 可 以 帮助 你 测试 所 有 的 搜索 查询 并 但 看 相关 结果 ， 这 些 都 








不 需要 编写 任何 繁琐 的 代码 或 者 获取 API 密 钥 。 为 了 获得 关于 “0. J.” 
的 合适 的 维度 ， 我 们 可 以 在 搜索 查询 (Sarch Query) 域 中 输入 “0.J 
Simpson”， 在 维度 查询 ( (Fcet Query) 域 中 输入 “per facet”， 结 
果 如 图 15-2 所 示 。 


当然 ， 在 1994~1995 年 发 生 的 事情 远 远 不 止 “ 白 色 吉 普 车 和 带 有 
血迹 的 手套 ”一 案 :1 。 使 用 API 工 具 ， 我 们 可 以 收集 在 那个 时 期 的 一 
些 其 他 事件 的 准确 信息 ， 比 如 南非 种 族 隔离 政策 的 结束 
( (go_facet=SOUTH AFRICA) ， 以 及 卢旺达 的 种 族 屠杀 
( (go_facet=RWANDA) 。 我 们 可 以 为 每 个 搜索 构建 新 的 “《 纽 约 时 报 》 
文章 搜索 ”( (TmesArticleSearch) 对 象 ， 或 者 每 次 清空 维度 查询 ， 重 
新 使 用 相同 的 对 象 。 第 二 种 方式 更 合理 ， 因 此 我 们 可 以 尝试 一 下 。 





import blprnt.nytimes. *; 

size (800, 350) ; 

background (255) ; 

TimesEngine. init (this, ~“YOUR-API-KEY-GOES-HERE” ) ; 
TimesArticleSearch mySearch=new TimesArticleSearch () ; 








Developer Network™” 











API Request Too! 
Reoqerst CRL 
APIs 
i p rr - =) berpa, apepre namn “eee march, rt ernst "eer seperate ares ary- o sos 
eqaest Rowealts 
v 4 
‘Query "Posate": i 
t =] "pas facet": j 
i 
Piekdia neguns "spaak" PIR, 
"iera"; "EILWFSGE; O J" 
Search Gary * } 
Bj Empan I 
*count’s TH, 
Freu “here”: “Ep, wiccis pigsa” 
par jacan $» 
Ose [rrn] *ewunt*s £93, 
napa ee Se 1 er TU 
he 
Cred Came OV ae í 
*opant”: 926, 
"Aera"; "CLIFTON, MILE” 
Fam y 
counts Lit, 
oset : si Tera", “170, LANSE A“ 
i 
“seuat*s 964, 
ters"; “SO0RSAS, BOGALD" 
i E) P 
t 
Reaponas Format cousi”: TH, 
k e, . 
| goa = 3] epee rimma, MAAR 
i 
erunt”: 4h. 
£ Wake Retest } Ho “LEVIUERY, MONICA $“ 
Mes Rea bento i 


图 


I 
"WD WITSLE Wena" 


sé’. 35, 
“Coane, 


Keir .Devalopnr Strath 


aef 


Tae 


15-2: API 请 求 工具 可 以 用 于 查找 关于 人 物 、 话 题 和 位 置 等 《纽约 


时 报 》 的 官方 维度 


//0J search 

mySearch. addFacetQuery ("per facet”, “SIMPSON,0 J”) ; 
mySearch. addExtra ("begin date”, “19940101” ) ; 
mySearch. addExtra ("end date”, “19960101” ) ; 
TimesArticleSearchResult rl=mySearch. doSearch () ; 
println (“0J: ”+r1. total 

//South Africa search 

mySearch. clearFacetQueries () ; 





mySearch. addFacetQuery ("geo facet”, “SOUTH AFRICA”) ; 


TimesArticleSearchResult r2=mySearch. doSearch () ; 


println ("South Africa: “+r2. total); 

//Rwanda search 

mySearch. clearFacetQueries () ; 

mySearch. addFacetQuery (“geo facet”, “RWANDA”) ; 
TimesArticleSearchResult r3=mySearch. doSearch () ; 
println (“Rwanda: “+r3. total); 


这 种 方式 可 以 得 到 3 个 “《 纽 约 时 报 》 文 章 搜索 结果 
( (TmesArticleSearchResult) 对象”， 这 些 对 象 包 含 每 个 结果 的 文章 
总 数 〈 我 们 后 面 可 以 看 到 这 些 对 象 也 可 以 保存 其 他 有 用 的 信息 ) 。 看 
起 来 现在 正 适合 对 这 些 数据 执行 一 些 〈 非 常 ) 简单 的 可 视 化 。 条 天 
图 ， 或 者 其 他 ? 如 图 15-3 所 示 。 





图 15-3: 对 0. J. (红色 显示 ) 、 南 非 “〈 绿 色 显 示 ) 和 卢旺达 CRE 
显示 ) 所 提 及 次 数 的 简单 的 图 形 比 较 〈 见 彩 图 14-8) 


//0. J. bar 

fill (255, 0, 0); 

rect (0, 50, rl. total, 50): 
//South Africa bar 

fill (0, 255, 0); 

rect (0, 150, r2. total, 50) ; 
//Rwanda bar 

fill (0, 0, 255); 


rect (0, 250, r3. total, 50): 


PKU 15-3 FAY A AG aA Ee AI. PAI, “CRETE 
了 在 海量 的 、 信 息 丰 富 的 《纽约 时 报 》 文 章 数 据 库 中 探索 时 所 需 的 几 
乎 所 有 概念 。 它 还 引出 了 一 个 非常 非常 简单 的 三 步 模式 ， 即 使 是 在 制 
作 最 为 复杂 的 数据 可 视 化 时 ， 该 模式 依然 有 效 。 








[1] 这 里 指 的 是 橄榄球 兼 电 影 明星 0.J Simpson 涉 嫌 谋 杀 前 妻 及 其 男友 
的 案件 ， 该 案件 在 美国 家 喻 户 晓 ， 引 起 空前 的 过 动 。 如 想 要 了 解 更 
多 ， 可 以 访问 

http: //en. wikipedia. org/wiki/O. J. Simpson murder case. 


三 个 简单 的 步 又 








我 们 先 停 下 来 考虑 一 下 在 可 视 化 项 目 中 的 最 基础 的 处 理 过 程 : 


1. 获取 数据 。 


2. 把 数据 转换 成 有 意义 的 结构 。 


3. 对 数据 进行 可 视 化 。 








通常 ， 这 个 简单 的 过 程 在 项 目 中 会 重复 两 次 : 一 次 是 在 发 现 过 
程 ， 劝 一 次 是 在 生产 过 程 。 在 研究 阶段 ， 挑 战 是 挖掘 到 一 组 数据 ， 发 
现 一 些 有 意义 或 有 趣 的 方面 ，“ 获 取 数 据 ” 阶 段 可 能 会 重复 很 多 次 ， 
而 可 视 化 阶段 可 能 会 尽 可 能 地 简单 。 相 反 地 ， 生 产 周期 通 第 是 在 识别 
完 数据 后 出 现 的 。 这 意味 着 我 们 花 了 很 少 的 时 间 来 获取 数据 (因为 我 
们 已 经 有 这 些 数 据 》 ， 而 在 可 视 化 阶段 花 了 更 多 的 时 间 。 








第 二 步 是 研究 和 生产 周期 中 都 存在 的 : 把 数据 转化 成 有 意义 的 结 
入。 这 些 是 什么 样 的 结构 ?是 什么 使 得 这 些 结构 有 意义 ? 对 我 而 言 ， 
这 个 过 程 通 常 意味 着 把 数据 分 片 封 汉 成 对 象 〈( 相 关 信 息 能 够 存储 在 一 
起 的 编程 结构 )。 它 通常 还 涉及 把 这 些 对 象 填充 成 一 些 集合 ， 即 一 个 
分 组 列表 使 得 易于 对 数据 进行 排序 和 检索 。 


=F 


在 我 们 的 0. J. 例子 中 ， 这 个 过 程 几乎 都 是 由 《纽约 时 报 》 的 
Processing 库 处 理 的 ， 我 们 在 刚 开始 可 视 化 时 就 导入 了 这 些 库 。 我 们 
发 现 每 次 执行 搜索 时 都 会 创建 对 象 。 我 们 创建 了 一 个 对 象 
TimesArticleSearch 来 对 所 有 的 API 请 求 进行 管理 : 


TimesArticleSearch mySearch=new TimesArticleSearch () ; 





以 及 一 个 TimesArticleSearchResult 对 象 来 存储 该 API 返 回 的 所 有 


RAR: 


TimesArticleSearchResult rl=mySearch. doSearch ©) ; 


这 些 普通 的 TimesArticleSearchResult (TASR) 对 象 存 储 了 每 个 搜 
索 结 果 的 相关 信息 。 到 目前 为 止 ， 我 们 所 做 的 就 是 获取 接收 到 的 结 
的 总 数 ， 该 总 数 指 的 是 在 每 个 结果 对 象 中 以 整数 形式 存储 的 一 个 属 
ME 





println (“RESULTS ABOUT 0. J.: “+r. total); 





但 是 ，TASR 对 象 存储 的 信息 远 远 不 止 于 这 些 。 实 际 上 ， 对 所 有 在 
1994/1995 年 由 《纽约 时 报 》 发 表 的 标 有 0. J. 维度 的 文章 ， 我 们 可 以 获 
取 文 章 的 标题 、 作 者 、URL、 摘 要 等 更 多 信息 一 一 这 些 信息 全 部 都 存储 
在 TASR 对 象 中 。 每 块 数据 都 是 以 TimesArticle0bjects 的 形式 存储 在 每 
个 TASR 对 象 中 ， 很 整齐 地 排列 在 文章 数组 中 。 默 认 情 况 下 ，TASR 保 存 


前 10 条 搜索 结果 。 如 果 我 们 想 要 获取 列表 中 第 一 篇 文章 的 作者 ， 我 们 
可 以 这 么 做 : 


println ("FIRST HEADLINE: ”+r.articles[0]. title); 
或 者 ， 为 了 获取 第 10 篇 文章 的 Web URL: 


println ("100th ARTICLE URL: ”+r.articles[9]. url); 





或 者 是 获取 每 篇 文章 的 标题 列表 : 


for(int i=0; i<r.articles. length; i++) { 

ee (“AUTHOR#” +i+”: “+r. articlesli]. author); 

在 这 里 ， 我 们 开始 看 到 《纽约 时 报 》 文 章 搜 索 API 币 给 我 们 的 数据 
的 冰山 一 角 。 到 目前 为 止 ， 我们 完成 了 3 个 相当 基础 简陋 的 搜索 ， 结 果 
是 约 2000 条 通过 一 些 TASR 对 象 进行 封装 的 文章 搜索 结果 。 我 们 已 经 知 
道 了 如 何 访问 (人 至少 部 分 的 ) 搜索 结果 ， 我 们 现在 来 查看 一 些 使 搜索 
和 结果 更 智能 的 方式 。 


维度 搜索 


在 前 面 的 例子 中 ， 已 经 介绍 了 我 们 是 如 何 通过 维度 (〈fcets) 搜索 
来 确保 得 到 我 们 需要 的 结果 的 。 但 是 尚未 提 到 的 是 在 我 们 的 搜索 结 
中 也 可 以 包含 维度 。 通 过 结果 中 的 维度 信息 ， 我 们 可 以 从 各 个 搜索 中 
找到 更 多 的 信息 ， 而 且 可 以 发 现在 文章 数据 库 内 不 同 维度 (“人物 、 
家 、 主 题 ) 之 间 的 关系 。 





让 我 们 以 一 个 简单 但 非常 有 用 的 例子 来 说 明 我 们 如 何 使 用 维度 结 
果 来 优化 搜索 。 在 前 一 个 例子 中 我 们 发 现在 1994 年 和 1995 年 ， 有 488 篇 
结果 文章 的 维度 标签 是 “Rwanda geo facet” (卢旺达 地 理 维度 ) 。 
如 果 我 们 进一步 分 解 ， 找 出 在 1994 年 每 个 月 发 表 了 多 少 篇 文章 ? 可 以 
使 用 我 们 之 前 证 实 的 方法 ， 做 12 次 搜索 : 每 个 月 搜索 一 次 。 每 次 搜 
索 ， 我 们 可 以 使 用 不 同 的 额外 参数 “开始 日 期 ”( (bgin_date) 和 “ 结 
束 日 期 ”( (ed_date) 来 确保 每 个 月 份 返回 相应 的 结果 ， 但 是 这 看 起 来 
需要 很 大 的 工作 量 ， 不 是 吗 ? 











可 能 你 已 经 想到 了 ， 这 种 搜索 的 一 种 更 好 的 方法 时 使 用 维度 结 
果 。 实 际 上 ， 只 需要 执行 一 次 搜索 ， 就 能 得 到 我 们 想 要 的 结果 。 搜 索 
的 方法 和 之 前 的 例子 相同 : 


TimesArticleSearch mySearch=new TimesArticleSearch () ; 
mySearch. addFacetQuery (“geo facet”, “RWANDA” ) ; 


但 是 ， 不 是 使 用 额外 参数 “开始 /结束 日 期 ”来 约束 时 间 为 1994 
年 ， 这 次 我 们 使 用 的 是 “发 表 年 份 ”( Cpblication_year) 这 个 维度 : 


mySearch. addFacetQuery ( publication year”, ”1994”) ; 


以 下 介绍 一 些 较 神奇 的 。 除 了 返回 通常 的 搜索 结果 (一 个 文章 列 
R) ， 我 们 将 要 求 API 返 回 一 些 维度 ， 比 如 在 这 个 例子 中 是 “发 表 年 份 


( (pblication _ year) 维度 ”: 





mySearch. addFacets (“publication month’ ) ; 


当 我 们 运行 搜索 时 ， 维 度 结果 会 和 所 有 其 他 数据 一 起 封装 在 TASR 
对 象 中 : 


TimesArticleSearchResult r=mySearch. doSearch () ; 


为 了 从 TASR 中 获取 publication_month 结 果 ， 我 们 需要 访问 感 兴趣 
的 特定 维度 的 TimesFacet0Ob jects 数 组 (〈TSR 可 以 包含 任何 数量 维度 的 
结果 ) : 


TimesFacet0bject[jmonths=r. getFacetList (“publication month”) ; 


现在 我 们 可 以 知道 在 1994 年 1 月 有 多 少 结果 ; 





println (“January results: “+monthsL0]. count); 


我 们 还 可 以 对 整 年 的 结果 进行 绘图 〈 见 图 15-4) : 


for(int i=0; i<12; i++) { 

fill(random (150, 255), 0, 0) ; 

float w=width/12; 

rect (i*w, height, w, -monthsli].count*3) ; 


ie 





图 15-4: 1994 年 《纽约 时 报 》 提 到 “卢旺达 ”的 每 月 频 度 


对 于 该 可 视 化 ， 我 们 实现 了 一 个 非常 简单 的 程序 来 发 现 一 年 内 所 
有 提 到 户 旺 达 的 文章 。 但 是 这 个 小 小 的 可 视 化 实际 上 可 以 有 很 多 扩 
展 。 它 可 以 对 从 1981 年 至 今 任 何 一 年 的 维度 项 的 描述 进行 可 视 化 。 虽 
然 我 很 愿意 详 述 这 个 过 程 ， 但 为 了 节省 时 间 和 纸张 ， 还 是 不 这 么 做 
了 。 你 可 以 在 http: //www. blprnt. com/examples/nytimes 下 载 
NYTimesGraphMaker。 虽 然 这 种 探索 非常 有 用 ， 但 目前 我 们 还 只 是 局 限 
于 在 文章 数据 库 中 的 离散 搜索 。 当 我 们 开始 使 用 API 来 探索 人 物 、 地 点 
和 主题 之 间 的 联系 时 ， 一 切 变 得 更 加 有 趣 。 





连接 





当 我 们 向 文章 搜索 API 发 送 任何 请 求 时 ， 可 以 要 求 API 返 回 在 已 经 
找到 的 包含 了 搜索 项 的 文章 中 包含 的 维度 的 一 个 列表 。 举 个 例子 ， 我 
们 可 以 发 现在 提 到 卢旺达 的 文章 中 还 包含 哪些 国家 ， 或 者 在 关于 0. 丁 
的 文章 中 还 提 到 哪些 人 ， 或 者 哪些 主题 和 南非 的 种 族 隅 离 制度 结局 最 
相关 。 我 们 还 可 以 做 出 更 通用 的 请 求 。 完 全 忽略 一 个 搜索 项 但 是 指定 
一 个 时 间 段 ， 我 们 可 以 请 求 这 段 时 间 内 的 所 有 文章 。 如 果 我 们 想 要 这 
些 文章 的 维度 列表 ， 我 们 可 以 发 现 一 个 给 定 月 份 、 年 份 或 10 年 期 间 的 
最 好 的 维度 。 举 个 例子 ， 我 们 找 出 谁 是 1994 年 最 有 名 的 人 物 。 首 先 ， 
我 们 创建 了 一 个 搜索 对 象 ， 并 给 它 赋 一 个 空 查 询 《〈 使 用 加 号 + 来 苦 代 空 
格 ) : 





TimesArticleSearch mySearch=new TimesArticleSearch () ; 
mySearch. addQueries (“+”) ; 


现在 ， 我 们 把 搜索 局 限于 1994 年 ， 在 搜索 对 象 的 结果 中 包含 维度 


per facet: 


mySearch. addFacetQuery (“publication year”, ”1994”) ; 
mySearch. addFacets ("per facet” ) ; 


并 执行 如 下 查询 : 


TimesArticleSearchResult r=mySearch. doSearch () ; 


如 果 我 们 想 要 列 出 在 1994 年 中 提 到 的 最 著名 的 人 物 ， 我 们 可 以 这 
么 做 : 


TimesFacetObject|]stars=r. getFacetList (“per facet”) ; 
for(int i=0; i<stars. length; i++) { 
println(starsli]. term); 
} ; 
会 输出 非常 复杂 的 一 组 名 字 : 
CLINTON, BILL 
GIULIANI, RUDOLPH W 
CUOMO, MARIO M 
CLINTON, HILLARY RODHAM 
PATAKI, GEORGE E 
SIMPSON, O J 
SIMPSON, NICOLE BROWN 
KERRIGAN, NANCY 
GINGRICH, NEWT 
RABIN, YITZHAK 
CORTINES, RAMON C 
ARAFAT, YASIR 
RENO, JANET 
WHITMAN, CHRISTINE TODD 
BERLUSCONI, SILVIO 








这 个 列表 使 我 们 回想 起 一 些 关 于 《纽约 时 报 》 的 事情 : 它 同 时 还 

是 一 份 城市 报纸 、 国 内 报纸 和 国际 报纸 。 想 到 这 一 点 ， 当 我 们 发 现 当 
时 一 一 以 色 列 总 理 Yitzhak Rabin《〈 他 在 1994 年 赢得 了 诺 贝 尔 奖 ) 被 提 
及 的 次 数 仅 比 纽约 市 教育 部 长 Ramon Cortines 多 一 些 一 一 就 不 会 感到 
太 奇 怪 了 。 虽 然 我 们 对 于 该 搜索 涉及 的 范围 之 广 可 能 很 满意 ， 我 们 可 
能 还 想 把 搜索 限制 在 某 个 “版 本 ”。 我 们 可 以 使 用 维度 完成 。 这 次 我 





们 将 通过 使 用 desk_ facet 维 度 ， 选 择 只 在 Foreign Desk 上 发 表 的 文 


Ne 2 
草 。 


r r 


mySearch. addQueries ("+") ; 

mySearch. addFacetQuery (’ AHN Erte eT ae “1994”) ; 
mySearch. addFacetQuery (“desk facet”, “Foreign Desk”) ; 
mySearch. addFacets (“per facet’) ; 
TimesArticleSearchResult r=mySearch. doSearch () ; 
TimesFacetObject[|]stars=r. getFacetList (“per facet”) ; 
for(int i=0; i<stars. length; i++) { 
println(starsli]. term); 


bs 


这 个 查询 结果 生成 了 更 普通 的 一 组 结 


CLINTON, BILL 
ARISTIDE, JEAN-BERTRAND 
YELTSIN, BORIS N 
ARAFAT, YASIR 

RABIN, YITZHAK 
CHRISTOPHER, WARREN M 
BERLUSCONI, SILVIO 
MANDELA, NELSON 
GOLDSTEIN, BARUCH 
BOUTROS-GHALI, BOUTROS 
CEDRAS, RAOUL 

CARTER, JIMMY 

POPE 

KIM IL SUNG 

MAJOR, JOHN 





这 个 列表 是 由 不 包括 关键 字 的 查询 或 维度 搜索 生成 的 ， 我 们 可 以 
选择 任何 一 个 或 者 所 有 这 些 名 字 ， 查 询 和 这 个 人 物 相关 的 最 有 名 的 人 
物 列表 。 这 里 ， 我 们 将 搜索 在 1994 年 和 Yitzhak Rabin 相 关 的 人 物 列 
表 : 








Ww LA 


mySearch. addQueries ("+ ) ; 

mySearch. addFacetQuery (“per facet”, “RABIN, YITZHAK”) ; 
mySearch. addFacetQuery (“publication year”, ”1994”) ; 
mySearch. addFacetQuery ("desk facet”, “Foreign Desk”) ; 
mySearch. addFacets (“per facet”) ; 
TimesArticleSearchResult r=mySearch. doSearch () ; 
TimesFacetObject[|]stars=r. getFacetList (“per facet”) ; 
for(int i=0; i< stars. length; i++) { 
println(starsli]. term); 


bs 


这 个 查询 的 输出 结果 列表 如 下 : 


ARAFAT, YASIR 

HUSSEIN I 

CLINTON, BILL 

PERES, SHIMON 
GOLDSTEIN, BARUCH 
ASSAD, HAFEZ AL- 
CHRISTOPHER, WARREN M 
CHRISTOPHER, WARREN 
WAXMAN, NAHSHON 
MUBARAK, HOSNI 
SHARON, ARIEL 
ABDELSHAFI, HAIDAR 
BHUTTO, BENAZIR 
BOUTROS-GHALI, BOUTROS 


我 们 现在 开始 不 仅仅 是 简单 地 获取 我 们 搜索 的 结果 ， 而 且 还 包含 
了 这 些 结果 之 间 的 关联 。 如 果 要 使 用 第 一 个 列表 中 其 他 人 物 来 重复 
Rabin 的 过 程 ， 我 们 将 在 “超级 列表 ”中 包含 225 个 人 物 。 不 过 ， 这 个 
超级 列表 是 包含 重复 项 的 ， 正 如 我 们 在 Rabin 列 表 中 所 看 到 的 ， 有 些 人 
物 已 经 在 我 们 的 第 一 个 列表 中 出 现 了 ( (Aafat、Clinton、Goldstein 
和 Boutros-Ghali) 。 











这 些 关 系 是 《纽约 时 报 》 提 供给 我 们 的 很 有 意思 的 数据 的 一 部 
分 。 通 过 检视 这 些 关 系 ， 我 们 可 以 发 现 人 物 、 地 点 、 主 题 之 间 明 显 的 
和 隐藏 的 关系 。 如 图 15-5 所 示 ， 我 们 之 前 提 到 的 相同 列表 的 255 个 名 字 
以 网 络 图 表 方 式 说 明 ， 其 中 的 连 线 表示 提 到 的 人 物 之 间 的 关联 关系 。 


—CLINTON, BILL 


图 15-5: 说 明了 1994 年 新 闻 价 值 最 高 的 人 物 的 网 络 图 


该 图 像 把 海量 的 新 闻 信 息 浓缩 成 一 张 图 形 。 对 于 典型 的 数据 检索 
系统 ， 这 种 图 形 需要 花费 非常 多 的 时 间 才 能 生成 。 正 如 我 们 所 看 到 
的 ，《 纽 约 时 报 》 文 章 搜 索 API 使 得 这 一 过 程 容易 了 很 多 。 








以 前 面 提 到 的 例子 为 例 ， 再 结合 人 物 和 机 构 组 织 会 使 它 变 得 稍微 
更 有 趣 一 些 。 该 API 只 包含 了 31 个 查询 ， 我 们 可 以 创建 一 张 图 片 ， 能 够 
显示 在 1994 年 的 新 闻 中， 成 百 上 千 的 人 物 、 企 业 和 国家 是 如 何 相互 关 
联 在 一 起 的 《该 例子 的 全 部 源 代 码 可 以 在 
http: //www. blprnt. com/examples/nytimes 获 取 ) 。 其 结果 如 图 15-6 
所 示 。 


1994 





繁 提 及 的 人 物 和 


约 时 报 》 中 最 频 


在 1994 年 《 纽 


6: 该 图 显示 了 
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结束 语 


《纽约 时 报 》 的 API 为 所 有 领域 的 研究 人 员 提 供 了 丰富 的 信息 。 其 
数据 库 既 包含 历史 记录 也 包含 实时 报道 一 一 每 时 每 刻 都 在 创建 着 新 的 
内 容 。 当 然 ， 无 论 《 纽 约 时 报 》 的 资料 库 信息 多 么 丰富 ， 它 只 是 海量 
的 开放 数据 中 很 小 的 一 部 分 一 一 每 周 跨越 式 不 断 增 长 的 条 目 。 实 际 
上 ， 似 乎 已 经 解决 了 过 去 关于 开放 数据 的 首要 问题 ， 即 如 何 开放 数 
据 ， 而 当下 面临 的 是 第 二 个 更 大 的 问题 是 ， 我 们 如 何 尽 可 能 地 利用 如 
此 大 量 的 信息 ? 














我 认为 该 问题 的 部 分 解决 方法 在 于 促使 尽 可 能 多 的 人 们 访问 和 探 
索 可 用 的 数据 。 很 多 大 规模 的 开放 数据 的 目标 在 于 服务 于 已 有 的 数据 
AR: 软件 开 有 发 人 员 、 计 算 机 科学 家 和 培训 过 的 信息 专业 人 员 。 大 部 
分 的 重点 在 于 使 数据 在 整个 企业 范围 内 可 用 。 然 而 ， 正 如 我 们 在 本 章 
所 见 的 ， 至 少 我 们 可 以 使 用 一 些 简单 的 工具 来 发 送 一 些 简 单 的 请 求 ， 
以 获取 其 中 一 些 数据 。 这 个 技能 对 于 记者 、 社 会 学 家 、 历 史学 家 、 艺 
术 学 家 和 科学 家 都 是 必需 的 ， 如 宁 我 们 真 的 想 要 在 这 个 新 的 开放 数据 
领域 找到 有 真正 的 价值 的 发 现 。 

















下 一 步 要 做 的 就 是 去 探索 。 深 入 文章 搜索 数据 库 ， 问 一 些 你 自己 
的 问题 ， 然 后 共 孚 结果 。 而 这 只 是 个 开始 。 可 以 使 用 你 在 本 章 学 到 的 
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第 16 半 《纽约 时 报 》 的 一 天 
MichaelYoung 和 Nick Bilton 


你 是 否 曾 经 想 过 《纽约 时 报 》 网 站 的 读者 会 涵盖 什么 类 型 的 人 ? 
我 们 想 过 。 我 们 还 在 想 他 们 倾 问 于 在 一 天 之 中 的 什么 时 候 来 访问 网 
站 ， 使 用 什么 工具 访问 以 及 他 们 都 来 自 哪 里 ， 纽 约 、 巴 黎 或 博 伊 西 ? 
从 他 们 是 谁 到 在 什么 时 候 、 以 什么 方式 以 及 为 什么 等 ， 所 有 这 些 问题 
都 在 我 们 的 思考 范围 之 内 。 


本 章 将 要 介绍 的 这 个 可 视 化 项 目的 开发 源 于 在 《纽约 时 报 》 研 发 
试验 室 的 一 次 午餐 时 就 这 个 话题 开展 的 一 次 简单 讨论 。 正 如 你 将 看 到 
的 ， 从 非常 简单 的 基于 地 理 的 数据 集合 开始 ， 很 快 就 深入 到 海量 数据 
和 潜在 可 视 化 。 最 终 ， 我 们 创建 了 一 个 可 视 化 用 于 显示 每 天 《纽约 时 
报 》 网 站 nytimes. com 和 手机 移动 网 站 mobile. nytimes. com 在 世界 和 美 
国 的 流量 。 我 们 这 个 可 视 化 探索 的 第 一 阶段 是 数据 收集 。 《纽约 时 
报 》 网 站 每 个 月 的 页 面 浏 览 量 可 以 达到 几 亿 ， 其 中 独立 访问 量 在 1700 
万 一 210(0 万 之 间 波 动 。 此 外 ， 还 有 很 多 网 关 可 以 访问 该 网 站 ， 包 括 移 
动 网 站 、 时 报 阅读 器 航空 应 用 ( (Tmes Re ader AIR application), 
iPhone 应 用 、API 等 很 多 方式 。 











具体 到 这 次 实验 ， 我 们 仅 选 择 了 标准 的 《纽约 时 报 》 网 站 
nytimes. com 和 其 移动 版 本 ( (mbile. nytimes. com) 。 虽 然 为 了 简化 实 
验 而 仅 选 择 了 上 述 两 种 资源 ， 但 是 即使 是 在 仅仅 使 用 这 两 个 数据 集 的 
情况 下 ， 需 要 筛选 和 可 视 化 的 信息 仍然 是 巨 量 的 。 


我 们 的 探索 的 第 二 个 阶段 是 创建 一 个 基于 地 图 的 可 视 化 。 该 可 视 
化 显示 了 流量 模式 以 及 在 过 去 24 小 时 内 Web 站 点 和 移动 站 点 的 读者 数量 
的 波动 。 





随 着 可 视 化 的 不 同 阶段 的 逐步 完成 ， 我 们 不 仅 为 该 网 站 的 读者 数 
的 庞大 程度 而 深 感 吃惊 ， 同 时 也 对 读者 们 访问 该 网 站 的 时 间 特 征 感到 
惊奇 。 从 视频 http: //bit. ly/nytdayinlife 中 你 可 以 看 出 ， 
nytimes. com 网 站 在 晚上 是 相对 活跃 的 ， 而 午夜 到 早上 5 点 其 用 户 访 问 
量 却 是 几乎 保持 不 变 的 。 当 住 在 美国 东海 岸 的 《纽约 时 报 》 网 站 的 读 
者 陆续 醒 来 时 ， 流 量 就 开始 暴涨 ， 可 视 化 开始 膨胀 ， 当 人 们 中 午 吃饭 
休息 期 间 开 始 查 看 每 天 的 消息 时 ， 也 会 出 现 类 似 的 流量 暴涨 。 访 问 手 
机 网 站 ( Cmbile. nytimes. com) 和 Web 站 点 ( Cntimes. com) 的 用 户 数 的 
变动 特征 也 是 很 有 意思 的 ; 如 后 面 的 可 视 化 所 示 ， 在 每 天 的 某 些 时 
刻 ， 会 出 现 手机 网 站 的 访问 流量 比 标准 网 站 的 访问 流量 还 要 大 的 情 
况 ， 在 另外 一 些 时 刻 也 有 与 此 相反 的 现象 存在 。 














随 着 数据 处 理 的 愈加 方便 ， 接 下 来 可 做 的 一 些 有 趣 的 处 理 方式 逐 
渐 明 明 了 起 来 。 只 要 时 间 人 允许 ， 我 们 希望 每 天 甚至 是 在 流量 高 峰 时 





刻 ， 比 如 在 一 些 重大 新 闻 事件 发 生 的 时 刻 ， 能 够 自动 泻 染 视频 。 数 据 
收集 和 可 视 化 编码 方面 还 有 很 大 的 优化 空间 〈 总 是 如 此 ) 。 最 终 ， 我 
们 讨论 了 如 何 对 更 为 具体 的 数据 进行 可 视 化 。 举 个 例子 ， 显 示 每 天 来 
目 特定 设备 (如 iPhone) 的 流量 ， 或 者 抽取 出 位 于 加 州 的 用 户 ， 对 他 们 
阅读 的 新 闻 进行 地 理 编 码 ， 进 而 就 可 以 分 析 他 们 有 征 更 倾 问 于 查看 关于 
纽约 的 新 闻 还 是 倾 问 于 碍 看 和 他 们 目 己 的 位 置 更 为 接近 的 新 闻 。 其 他 
的 可 能 方案 包括 在 重大 日 子 或 者 有 重大 新 闻 时 可 视 化 读者 的 阅读 模 

式 ， 从 而 了 解 新 闻 是 如 何在 Web、 社 交 网 络 和 特定 地 理 位 置 之 间 传播 

的 。 

















分 析 的 方法 是 无 穷 无 尽 的 。 我 们 相信 一 张 图 所 级 含 的 信息 量 与 上 
干 个 词 的 信息 量 相 仿 ， 但 是 一 个 数据 集 所 能 表达 的 却 可 以 达到 上 干 篇 
文章 的 效果 。 


收集 一 些 数据 





在 深入 介绍 可 视 化 本 身 的 内 容 之 前 ， 我 们 首先 对 隐藏 于 其 后 的 数 
据 进 行 一 次 讨论 。 为 了 对 nytimes. com 和 mobile. nytimes. com 的 24 小 时 
的 流量 进行 可 视 化 ， 我 们 需要 创建 一 个 可 以 从 《纽约 时 报 》 的 访问 日 
志 中 抽取 和 清洗 数据 的 程序 。 考 虑 到 我 们 想 要 创建 一 个 可 以 显示 在 一 
天 内 网 站 的 访问 次 数 的 可 视 化 并 且 是 一 个 基于 地 理 信息 进行 展示 的 可 
视 化 ， 我 们 需要 的 数据 包括 : 





”在 24 小 时 内 ， 用 户 每 次 访问 Wep 站 点 或 手机 网 站 的 时 间 改 。 


© 每 个 用 户 每 次 访问 时 所 处 位 置 的 经 度 和 纬度 。 


原始 的 访问 日 志 包 含 了 人 们 访问 Web 站 点 和 手机 站 点 的 很 多 有 用 的 
言 思 《比如 每 个 访问 者 使 用 什么 浏览 器 ) ;， 但是， 其 中 有 很 多 信息 对 
我 们 而 言 是 没有 用 的 ， 因 此 需要 把 它们 从 日 志 信 息 中 过 小 挥 。 此 外 ， 
日 志 中 并 不 包括 每 个 用 户 每 次 访问 时 的 经 纬度 信息 ， 因 此 这 是 我 们 在 


日 志 “ 清 洗 ” 过 程 中 需要 添加 的 信息 。 





《纽约 时 报 》 的 Web 站 点 ， 是 一 个 流量 在 新 闻 类 网 站 中 排名 前 五 的 
站 点 (根据 Nielsen |!) 排名 ) ， 其 月 独立 访问 读者 约 2000 万 。 这 意味 
着 ， 在 任何 一 天 Web 站 点 和 手机 站 点 上 都 有 几 百 万 次 的 页 面 浏览 〈 或 点 
击 ) ; 这 是 我 们 准备 为 可 视 化 收集 的 基础 数据 。 








OUl: 参考 
http: //blog. nielsen. com/nielsenwire/online mobile/msnbc-and- 
cnn-top-global-news-sites-in-march/. 


数据 清洗 





处 理 原 始 的 访问 日 志 的 第 一 步 是 “清洗 ”数据 。 对 于 处 理 任 何 类 
型 的 Web 日 志 的 人 来 说 ， 这 通常 都 是 一 个 常见 的 步骤 。 对 于 可 视 化 以 及 
其 他 日 志 数 据 的 分 析 ， 我 们 只 对 来 自 人 们 的 在 Web 页 面 和 手机 网 站 的 点 
击 数 感 兴趣 一 一 而 不 是 来 自 网 络 息 虫 ( (sider)、 机 器 人 (bt) 或 抓 取 
程序 ( (sraper) 。 为 了 过 滤 这 些 不 必要 的 数据 ， 我 们 实现 了 一 段 Java 
代码 用 于 识别 出 非 人 工 的 访问 日 志 并 将 其 从 日 志 中 删除 。 每 天 Web 站 点 
原始 的 日 志 数 据 访 问 量 大 约 有 500MB 一 700MB (压缩 格式 的 ) ， 手 机 网 
站 的 访问 量 约 80OMB 一 100MB《〈 压 缩 格 式 的 ) 。 在 对 数据 进行 清洗 过 程 
中 ， 我 们 还 执行 了 IP 到 经 纬度 的 转换 ， 从 而 可 以 得 到 每 个 访问 用 户 的 
精确 位 置 。 原 始 访问 日 志 中 已 经 包含 了 用 户 的 IP 地 址 ， 然 后 我 们 使 用 
商业 数据 库 把 IP 转 换 成 地 理 位 置信 息 。 有 很 多 公司 提供 GeoIP〈 地 理 位 
IP) 数据 库 ， 可 以 用 于 实现 该 转换 。 举 个 例子 ，MaxMind 公 司 提 供 了 
一 个 商业 数据 库 以 及 一 个 包含 了 各 种 客户 端 库 的 免费 版 本 ,借助 这 些 
客户 端 库 就 可 以 访问 该 公司 的 数据 库 了 。 

















一 旦 数据 被 清洗 完毕 并 准确 地 进行 了 地 理 位 置 编码 ， 只 需要 对 数 
据 再 做 最 后 一 轮 处 理 。 由 于 原始 的 访问 日 志 的 收集 、 存 储 和 清理 方 
式 ， 新 清洗 完 的 数据 是 存放 在 多 个 文件 中 的 ， 需 要 对 它们 排序 之 后 合 





并 到 一 个 结果 文件 中 去 ， 该 文件 将 包含 可 视 化 所 需 的 数据 ， 即 一 天 访 
问 数据 。 





每 天 “清洗 ”后 的 《纽约 时 报 》 网 站 nytimes. com 的 日 志 数 据 被 存 
储 到 360 个 文件 中 ， 每 个 文件 大 小 约 30MB 一 40MB (压缩 格式 的 ) 。 由 于 
每 行 中 增加 了 一 些 额外 的 字段 ， 如 GeoIP 信 息 ，“ 清 洗 ” 后 的 日 志文 件 
要 大 于 原始 文件 。 对 于 手机 网 站 ， 因 为 数据 集 小 得 多 ， 清 洗 后 的 数据 
存储 在 一 个 文件 中 ， 大 约 有 70MB〈 压 缩 格 式 的 ) 。 我 们 每 天 需要 整理 
当天 的 每 个 清洗 后 的 日 志文 件 ， 并 创建 按照 对 Web 站 点 和 手机 网 站 的 访 
问 时 间 惟 以 及 访问 者 所 在 的 经 纬度 排序 的 单个 文件 (Wb 站 点 和 手机 网 
站 分 别 生 成 一 个 文件 ) 。 排 序 结果 看 起 来 如 下 每 行 一 条 数据 记 
录 ) : 














00: 00: 00, —18.006, —070. 248 


00: 00: 00, —22.917, —047. 080 


00: 00: 00, —33.983, 0151. 100 


00: 00: 00, 014.567, 0121. 033 


Python, Map/Reduce 和 Hadoop 


数据 处 理 的 最 后 一 步 ， 我 们 用 Python 语 言 创建 了 一 个 简单 的 
map/reduce 脚 本 ， 它 可 以 从 清洗 后 的 日 志文 件 中 过 滤 掉 所 有 不 需要 的 
数据 ， 并 输出 以 逗号 作为 分 隔 符 的 数据 ， 最 后 还 会 对 数据 进行 排序 。 

(在 研发 组 ， 我 们 通常 使 用 Python 来 收集 、 处 理 和 解析 数据 。 当 对 大 
的 数据 集 进行 可 视 化 时 ， 我 们 用 Python 来 处 理 所 有 繁重 的 数据 处 理 ， 
创建 在 可 视 化 应 用 程序 中 易于 读 取 和 解析 的 文件 。) 我 们 使 用 Amazon 
的 弹性 MapReduce Web 服 务 ， 它 允许 我 们 在 很 多 基于 Hadoop 的 EC2 的 运 
行 实例 中 运行 Python 实现 的 map/reduce。Amazon 的 EC2 运 行 实例 的 “ 配 
置 ”不 同 〈 低 配 、 中 配 和 高 配 ) ， 不 同 的 配置 会 提供 不 同 的 RAM、CPU 
核 数 和 内 存 ， 因 此 我 们 在 很 多 EC2 实 例 中 试验 运行 hap/reduce 代 码 ， 从 
而 找到 性 价 比 最 好 的 配置 。 数 据 处 理 需 要 约 10 一 20 分 钟 〈 价 值 几 美 
To) ， 有 具体 所 耗 时 间 会 依赖 于 机 器 的 数量 〈 我 们 从 4 一 10 台 都 尝试 了 一 
i) 和 EC2 实 例 的 配置 (我 们 尝试 了 低 配 和 中 配 〉。 














map/reduce (Hadoop) Job 的 输出 结果 是 很 多 有 订 的 文件 ， 这 些 文件 
保存 在 Amazon 的 S3 桶 (〈bckets) 中。 为 了 在 可 视 化 中 把 数据 放 到 一 个 
文件 中 《与 前 述 方式 相同 ，Web 站 点 和 手机 网 站 分 别 存储 ， 各 目 有 一 个 
独立 文件 ) ， 我 们 从 S3 下 载 结果 文件 到 本 地 ， 然 后 按照 传统 的 方法 进 





行 排序 和 归并 。 现 在 ， 数 据 已 经 按照 期 望 的 方式 保存 在 一 个 文件 中 
了 ， 可 视 化 的 准备 工作 已 经 完成 


可 视 化 的 第 一 步 





重申 一 下 ， 该 项 目的 目标 是 对 《纽约 时 报 》Web 站 点 nytimes. com 
和 手机 网 站 mobile. nytimes. com 一 天 的 访问 量 进行 可 视 化 ， 并 查看 在 
一 天 之 中 用 户 对 这 两 个 站 点 的 访问 是 如 何 变化 的 。 我 们 想 查 看 在 特定 
地 理 区 域 甚 至 是 全 球 范围 内 ， 是 否 出 现 了 茶 些 有 趣 的 模式 。 在 美国 的 
哪个 地 区 、 什 么 时 间 手 机 网 站 流量 达到 峰值 ? 我 们 是 否 会 看 到 在 手机 
普及 率 比 美国 高 的 国家 ， 如 中 国 和 印度 ， 其 对 手机 网 站 的 访问 量 是 否 
更 高 ? Web 站 点 和 手机 网 站 在 一 天 的 某 些 时 间 段 ， 如 凌晨 、 上 班 时 间 、 
午餐 时 间 和 下 班 时 间 的 访问 量 如 何 ? 有 些 问题 通过 最 基础 的 流量 报告 
就 可 以 回答 ， 但 是 我 们 希望 给 这 种 普通 的 报告 增加 一 种 新 的 视觉 维 
度 ， 使 人 们 可 以 看 到 在 一 天 的 不 同时 段 上 访问 量 按照 地 理 维度 的 分 布 
情况 。 














我 们 在 可 视 化 上 做 的 第 一 个 尝试 是 创建 了 一 个 简单 的 世界 地 图 ， 
将 一 天 之 中 对 nytimes. com 的 每 次 访问 用 一 个 小 的 黄色 圆圈 表示 ， 对 
mobile. nytimes. com 的 每 次 访问 用 一 个 小 的 蓝 色 圆圈 表示 。 除 了 全 球 
范围 的 视图 ， 我 们 还 希望 创建 一 个 聚焦 (或 缩放 〉 于 美国 的 视图 。 











对 于 我 们 所 创建 的 第 一 个 可 视 化 在 后 面 将 会 详细 介绍 ， 在 此 不 做 
痪 述 。 对 我 们 而 言 ， 这 次 尝试 主要 是 一 个 学 习 积累 的 过 程 一 一 对 如 此 
庞大 的 数据 集 进 行 合理 可 视 化 会 面临 很 多 挑 成 ， 而 且 我 们 马上 就 意识 











到 了 这 一 点 。 在 当前 版 本 之 前 ， 我 们 对 代码 进行 了 多 次 修改 ， 而 且 只 
要 有 时 间 ， 我 们 仍然 会 不 断 对 数据 处 理 和 可 视 化 处 理 的 模块 进行 优 
化 。 


Processing 


Processing《〈 面 向 设计 的 开源 编程 语言 和 集成 开发 环境 ) 被 选 作 
我 们 的 可 视 化 工具 ， 有 几 个 原因 。 首 先 ， 在 《纽约 时 报 》 研 发 小 组 中 
的 成 员 当 中 有 些 人 已 经 有 使 用 Processing 完 成 小 的 数据 可 视 化 的 项 目 
经 验 ， 他 们 还 拥有 使 用 传感器 作为 数据 收集 设备 进行 探索 的 经 验 。 此 
外 ， 我 们 都 是 Ben Fry, Casey Reas (Processing 创 始 人 ) 和 Aaron 
Koblin 使 用 该 工具 所 创造 的 作品 的 超级 粉丝 ， 我 们 认为 Processing 将 
会 成 为 对 海量 数据 进行 可 视 化 的 理想 工具 。 





对 于 该 可 视 化 ， 我 们 需要 做 的 第 一 件 事 是 将 网 站 的 访问 用 户 的 经 
纬度 信息 映射 到 Processing 中 的 二 维 可 视 化 图 形 中 。Aaron Kobling 
情 提 供 了 一 些 他 在 前 一 个 项 目 中 实现 该 功能 的 代码 一 一 很 不 错 的 、 紧 
凑 的 Java 类 ， 可 以 把 经 纬度 组 转换 成 x、y 坐 标 。 我 们 需要 做 的 束 是 癌 
Java 库 传递 数据 文件 中 的 经 纬度 元 组 ，Java 库 就 会 返回 x、y 坐 标 。 然 
后 ， 我 们 把 这 些 坐 标 值 传 给 Processing 的 绘图 API 来 定位 《纽约 时 报 》 
Web 站 点 nytimes. com 和 手机 网 站 mobile. nytimes. com 的 每 个 用 户 的 位 
置 。 








基础 层 地 图 


创建 基础 层 地 图 一 一 如 刚刚 绘制 的 世界 地 图 一 一 所 需 的 时 间 会 远 
远 超过 你 的 想象 。 首 先 ， 我 们 需要 对 美国 和 世界 做 出 准确 的 表示 。 经 
过 大 量 的 数据 探索 后 ， 我 们 最 终 使 用 加 州 大 学 洛杉矶 分 校 的 CENS 组 数 
据 集 ， 它 描绘 了 世界 上 每 座 城市 的 经 度 / 纬 度 坐标 。 





在 使 用 该 数据 集 的 初始 阶段 ， 每 当 程序 启动 时 ， 直 接 在 
Processing 集 成 环境 中 进行 泻 染 ， 但 是 这 个 泻 染 花费 的 时 间 比 我 们 期 
望 的 要 多 很 多 ;因为 知道 该 数据 不 会 变 ， 最 后 ， 我 们 创建 了 一 个 JPEG 
地 图 ， 向 背景 地 图 中 加 载 一 个 非常 小 的 文件 〈 见 图 16-1 和 图 16-2) 。 
这 种 方式 给 我 们 节省 了 好 几 分 钟 的 泻 染 时 间 ( 当 解析 大 数据 集 时 ， 这 
部 分 工作 所 需 的 时 间 会 更 长 )》 和 处 理 能 力 ， 并 且 成 为 所 有 后 续 的 数据 
输出 和 视频 的 背景 。 

















图 16-1: 美国 人 口 地 图 ( 见 彩 图 123) 





图 16-2: th AAD 地 图 ( 见 彩 图 124) 


刚刚 处 理 的 数据 哪 去 了 


有 了 纬度 /经 度 投影 代码 和 地 图 轮廓 ， 我 们 开始 在 地 图 上 描绘 交通 
数据 图 。 在 可 视 化 初期 ， 我 们 使 用 不 包含 重大 新 闻 的 任意 一 天 的 数据 
《2009 年 2 月 15 日 ) 。 这 一 天 的 Web 站 点 和 手机 网 站 的 流量 /访问 次 数 和 
平均 值 一 致 。 


我 们 之 前 已 经 对 数据 进行 过 清洗 、 排 序 和 添加 地 理 位 置 编码 ， 它 
包含 了 时 间 戳 、Web 站 点 和 手机 网 站 上 给 定 一 天 的 用 户 每 次 查看 /点 击 
时 所 处 的 纬度 /经 度 值 。 现 在 到 了 创建 一 个 Processing 应 用 程序 的 时 刻 
了 ， 它 可 以 扫描 Web 站 点 和 手机 网 站 的 日 志文 件 ， 对 于 用 户 的 每 次 查 
看 /点 击 ， 会 在 地 图 上 描绘 一 个 基于 用 户 点 击 时 所 在 位 置 而 生成 的 点 。 





场景 1， 步 又 1 


Processing 应 用 在 绝 大 多 数 情 况 下 由 两 部 分 组 成 的 ， 启 动 
( Cstup) 和 循环 绘制 ( (daw) 。 在 Processing 应 用 的 setup() 函数 
中 ， 你 可 以 执行 应 用 需要 的 任何 工作 ， 比 如 变量 初始 化 、 打 开 输 入 文 
件 、 字 体 加 载 等 。 循 环 绘制 是 Processing 代 码 的 根本 。Processing 应 
用 中 的 draw《〈) 函数 通常 每 秒 钟 会 被 调用 30 一 60 次 《这 是 时 间 帧 速 
率 ) 。 


我 们 的 第 一 次 尝试 的 内 容 大 体 如 下 《简单 的 伪 代 码 描述 ) : 


void setup () 

-open up both the mobile and web log files 

-load the data for the world map 

void draw () 

-draw the world map 

-read a second’s worth of log data from the web and mobile log 
files 

-draw a yellow point for each visit/hit to nytimes mobile 
site(during that 

second in the log file) 

-draw a blue point for each visit/hit to nytimes.com 
website (during that 

second in the log file) 


这 段 代 码 尽 管 存在 一 些 问 题 ， 但 是 能 够 生成 一 些 可 以 在 屏幕 上 观 
看 的 画面 。 可 以 多 次 运行 该 应 用 程序 ， 碍 看 图 片 中 描绘 的 点 ， 这 些 点 
表示 《纽约 时 报 》Web 站 点 和 手机 网 站 一 天 的 流量 。 随 时 间 变 化 的 流量 








FARR LL AME U Ba IEE TA rE SR AE AER EE, TA RSET SG 
布 在 整个 地 球 上 ， 如 图 16-3 所 示 。 








这 是 伟大 的 第 一 步 ， 但 是 我 们 的 代码 和 方法 都 需要 做 些 修改 。 以 
下 部 分 将 介绍 需要 改进 的 3 个 方面 。 








图 16-3: 原始 可 视 化 显示 了 《纽约 时 报 》Web 站 点 nytimes. compt F 
机 网 站 mobile. nytimes. com 在 全 世界 的 流量 一 一 黄色 圆圈 表示 Web 站 点 
的 流量 ， 赣 色 圆 圈 表 示 手 机 网 站 的 流量 〈 见 彩 图 125 ) 


首先 ， 该 可 视 化 没有 显示 来 自 每 个 用 户 位 置 的 Web 站 点 和 手机 网 站 
的 流量 的 比例 。 比 如 ， 在 一 天 的 某 个 时 刻 ， 可 能 有 很 多 Web 站 点 和 手机 
网 站 的 用 户 是 来 自 相同 的 地 方 ， 比 如 纽约 ， 可 以 看 到 有 非常 高 的 流 
=) 。 有 时 ， 可 能 有 成 干 上 万 用 户 来 自 同 一 个 地 理 位 置 。 同 样 ， 假 如 
是 纽约 ! 














在 该 应 用 程序 的 最 初版 本 中 ， 日 志文 件 中 出 现 的 每 个 地 理 位 置 
一 组 经 纬度 值 ) 在 我 们 的 地 图 上 都 是 使 用 相同 大 小 的 点 表示 的 。 为 
了 能 够 表示 比例 ， 需 要 基于 与 某 个 位 置 关联 的 用 户 量 来 调整 每 个 位 置 
的 可 视 化 表示 “地 图 上 的 蓝 色 和 黄色 点 )。 


其 次 ， 因 为 黄色 (表示 Web 站 点 流量 ) MAE CaN PLA bt 
量 ) 点 大 小 相同 ， 而 我 们 《在 绘制 循环 中 ) 先 画 表示 Web 站 点 的 点 ， 再 
画 表 示 手 机 网 站 的 点 ， 当 两 种 点 击 类 型 位 于 同一 个 地 理 位 置 时 ， 蓝 色 
点 会 覆盖 黄色 点 。 这 对 可 视 化 而 言 不 是 一 个 好 的 选择 。 








没有 考虑 时 间 


在 可 视 化 的 第 一 阶段 ， 我 们 没有 考虑 人 们 在 Web 站 点 或 手机 网 站 上 
每 次 访问 或 页 面 得 看 所 花费 的 时 间 ， 只 是 简单 地 在 地 图 上 为 每 次 访问 
画 了 一 个 点 ， 在 可 视 化 的 整个 过 程 中 都 不 再 管 它 了 。 这 样 ， 就 没有 人 
会 注意 到 在 条 些 大 城市 《纽约 时 报 》 有 持续 较 大 的 流量 ， 而 在 一 些小 
的 偏远 地 区 我 们 可 能 一 天 只 有 几 次 查看， 这 种 表示 方式 会 使 我 们 错误 
地 认为 这 些 地 区 整 天 都 有 流量 。 








我 们 需要 解决 这 个 问题 ， 并 结合 比例 表示 问题 ， 也 就 是 说 ， 我 们 
需要 提出 一 种 新 的 方法 ， 可 以 精确 地 表示 从 任何 一 个 位 置 有 多 少 人 访 
问 该 网 站 ， 以 及 他 们 在 茶 篇 文章 上 停留 了 多 长 时 间 ， 或 者 在 整个 网 站 
上 停留 的 时 间 。 


最 重要 的 是 ， 我 们 在 一 天 的 每 一 秒 内 都 必须 做 这 件 事 ! 


we IN FH dix 


最 后 ， 我 们 选择 将 整 天 的 数据 流量 创建 成 为 一 个 定时 拍摄 视频 ， 
从 而 使 得 我 们 能 够 在 整个 《纽约 时 报 》 公 司 内 共享 该 可 视 化 。 为 了 解 
决 这 个 问题 ， 我 们 决定 使 用 Processing 的 一 个 内 置 的 视频 库 ， 它 能 够 
将 循环 绘制 生成 的 时 间 帧 保存 到 视频 文件 中 ， 进 而 创建 出 很 清晰 的 电 
影 形 式 的 输出 。 


场景 1， 步 又 2 


在 项 目的 第 一 个 版 本 代码 基础 之 上 ， 我 们 增加 了 通过 Processing 
的 MovieMaker 库 将 可 视 化 捕获 下 来 并 保存 到 一 个 文件 中 的 功能 。 我 们 
还 增加 了 应 用 支持 ， 能 够 使 一 对 Web 站 点 或 手机 网 站 的 每 次 点 击 的 可 视 
化 都 能 够 体现 该 次 访问 的 生命 周期 。 平 均 来 说 ，Web 站 点 和 手机 网 站 这 
两 个 站 点 的 一 次 访问 时 间 是 历时 3 一 4 分 钟 。 因 此 ， 在 迭代 过 程 中 ， 不 
再 是 在 地 图 上 男 一 个 点 并 在 后 面 整 整 24 小 时 都 不 管 它 ， 我 们 答 试 慢 慢 
地 每 3 分 钟 淡出 消减 一 个 点 。 当 然 ， 一 个 独立 用 户 不 是 每 3 分 钟 对 Web 站 
点 或 手机 网 站 执行 一 次 点 击 一 一 日 志文 件 中 显示 的 很 多 点 击 都 是 来 目 
同一 批 用 户 ， 或 者 是 用 了 更 长 的 时 间 浏 览 了 网 站 的 很 多 页 面 的 用 户 。 
但 是 为 了 避免 可 视 化 的 最 初版 本 过 于 复杂 ， 我 们 就 党 统 地 认为 每 次 对 
网 站 的 访问 都 是 “3 分 钟 访 问 ”。 














对 于 这 种 简化 的 表示 ， 我 们 需要 保存 一 天 内 的 每 次 查看 /点 击 淡出 
3 分 钟 以 上 的 点 。 这 意味 着 需要 在 内 存 中 存储 很 多 对 象 。 对 于 每 秒 钟 内 
Web 站 点 和 手机 网 站 上 的 每 次 点 击 ， 我 们 都 会 在 Processing 应 用 程序 中 
创建 一 个 对 象 ， 它 的 任务 是 保存 该 点 击 的 “生命 周期 ”， 也 就 是 说 ， 
这 个 点 需要 在 屏幕 上 停留 多 长 时 间 〈3 分 钟 ) ， 使 用 这 些 对 象 来 帮助 我 
们 在 可 视 化 的 整个 周期 内 对 点 实现 淡出 效果 。 

















因此 ， 我 们 再 回 过 来 看 Processing 的 绘制 循环 。 我 们 还 是 每 秒 钟 
从 Web 和 手机 网 站 的 日 志文 件 中 读 取 数据 ， 但 是 对 于 每 次 单 击 ， 我 们 创 
建 一 个 Hit〈 单 击 ) 对 象 ， 其 初始 生命 周期 设置 为 3 分 钟 ， 初 始 不 透明 
度 是 100%《〈 这 些 值 在 欠 代 循环 的 每 次 绘制 中 不 断 减 少 ) 。 读 完 日 志 数 
据 后 ， 我 们 壳 历 内 存 中 Hit 对 象 集合 。 对 于 每 个 Hit 对 象 ， 我 们 重新 描 
绘 表示 该 单 击 的 点 ， 其 透明 度 是 基于 该 单 击 剩余 的 生命 周期 ， 在 3 分 钟 
时 间 内 把 它 淡出 。 当 每 个 Hit 对 象 达 到 生命 周期 时 ， 把 它 从 内 存 中 删 
除 ， 并 从 地 图 上 删除 相应 点 〈 即 不 再 重新 描绘 它 ) 。 














因为 每 秒 钟 大 约 需 要 对 400 一 500 次 点 击 进行 可 视 化 ， 这 种 方法 意 
味 着 任何 时 刻 都 需要 在 内 存 中 存储 很 多 对 象 ， 来 保存 所 有 扣 击 (或 用 
F) 轨迹 。 我 们 已 经 意识 到 这 个 问题 ， 并 想到 了 一 些 优 化 方案 ,但 是 


还 是 想 尝 试 这 些 简 单 的 步 又 并 确定 这 种 方法 是 否 可 行 。 














让 我 们 运行 一 下 ， 看 看 会 发 生 什 么 


增加 支持 每 次 点 击 在 3 分 钟 后 淡出 的 功能 ， 使 我 们 更 接近 于 对 该 网 
站 流量 的 可 视 化 ， 但 是 还 需要 做 更 多 的 工作 。 一 方面 ， 我 们 还 没有 把 
每 个 地 理 位 置 的 流量 比例 显示 添加 到 可 视 化 中 。 另 一 方面 是 速度 问题 
一 一 运行 这 个 版 本 ， 我 们 在 25 分 钟 内 只 能 生成 历时 45 秒 钟 的 视频 。 内 
存 和 处 理 器 处 理 都 很 慢 ， 可 视 化 的 运行 和 泻 染 更 慢 。 我 们 试 着 在 实验 
室 几 台 不 同 的 机 器 上 运行 ( (Mc Minis, 1GB RAM; MacBook Pros, 4 











GB RAM 和 Mac Pro) ， 但 是 该 应 用 程序 在 每 台 lat CARARE. BA 
该 可 视 化 与 我 们 期 望 的 结果 进一步 接近 了 ， 但 是 需要 对 它 做 一 轮 新 的 
优化 一 一 我 们 需要 生成 历时 1 天 的 可 视 化 视频 ， 而 目前 我 们 最 多 能 够 生 
成 历时 1 个 小 时 的 视频 。 








第 一 版 的 可 视 化 可 以 通过 如 下 链接 碍 看 : 


http: //nytlabs. com/dataviz. 


可 视 化 的 第 二 步 


既然 我 们 已 经 清楚 想 要 什么 样 的 可 视 化 ， 我 们 需要 实现 它 。 除 了 
增加 支持 能 够 显示 每 个 地 理 位 置 的 流量 比例 ， 我 们 需要 对 应 用 程序 进 
行 优化 ， 它 需要 我 们 重新 思考 如 何 收集 数据 。 


Br [el BY EE fl pe ell 











每 秒 钟 显示 每 次 点 击 并 不 能 显示 任何 比例 。 在 第 一 版 的 应 用 程序 
中 ， 来 自 加 拿 大 农村 地 区 的 少量 的 点 击 和 来 自 纽约 的 成 干 上 万 的 反 
击 ， 其 可 视 化 权重 是 一 样 的 。 此 外 ， 从 内 存 和 处 理 圳 对 可 视 化 进行 泻 
染 的 处 理 能 力 而 言 ， 每 秒 钟 亚 示 所 有 的 点 击 代 价 太 高 。 








想 清楚 后 ， 我 们 认为 答案 是 对 每 分 钟 每 个 地 理 位 置 的 点 击 次 数 进 
行 可 视 化 ， 而 不 是 每 秒 钟 进行 可 视 化 。 对 于 访问 日 志文 件 中 的 每 分 钟 
的 数据 ， 我 们 会 累加 每 个 地 理 位 置 的 点 击 总 数 。 这 种 方式 使 得 可 视 化 
结果 可 以 显示 每 个 地 理 位 置 的 流量 比例 ， 而 且 会 极 大 地 减少 
Processing 应 用 程序 的 原始 数据 输入 。 但 是 ， 这 种 方式 意味 着 我 们 需 
要 改变 数据 处 理 和 map/reduce 作 业 。 























进一步 处 理 数 据 


之 前 用 Python 实 现 的 map/reduce 脚 本 ， 其 目的 是 从 原始 访问 日 志 
中 解析 出 我 们 需要 的 数据 ， 并 基于 时 间 对 数据 进行 排序 ， 因 此 ， 需 要 
做 些 修改 。 现 在 ， 该 脚本 需要 对 每 分 钟 、 每 个 地 理 位 置 (一 组 纬度 /经 
度 值 ) 的 所 有 点 击 进行 计数 ， 输 出 结果 数据 并 根据 访问 时 间 进 行 排 
序 。 








如 果 你 对 map/reduce 是 如 何 工作 的 还 不 熟悉 ， 我 们 建议 你 从 网 上 
获取 一 些 基本 教程 进行 阅读 。 从 根本 上 说 ，map/reduce 是 一 个 编程 模 
型 ， 文 持 海量 数据 处 理 。 其 处 理 过 程 分 成 两 个 任务 :; mapping CARE) 
和 reducing GHAI) 。Mapper 通 常 是 接收 一 些 输入 在 我 们 的 例子 中 
古 日 志文 件 ) ， 对 数据 做 一 些 较 小 的 处 理 ， 然 后 以 键 / 值 ( (ky/value) 
对 的 方式 输出 数据 。Reducer 的 任务 是 接收 Mapper 的 输出 结果 数据 ， 对 
数据 进行 归并 或 规约 ， 通 常生 成 较 小 的 数据 集 。 





在 我 们 的 应 用 程 友 中 ，Mapper 脚 本 读 入 原始 的 访问 日 志文 件 ， 对 
于 每 一 行 ， 以 如 下 格式 输出 键 / 值 对 : 


Timestamp of the access(in HH:MM format), latitude, longitude 1 





在 这 个 例子 中 ，key GE) 是 以 逗号 作为 分 隔 符 ， 包 含 了 日 志文 件 
中 每 次 点 击 的 时 间 戳 、 纬 度 、 经 度 ， 而 value〈 值 ) 是 1《〈 表 示 一 次 氮 
击 计数 值 ) 。 











然后 ，Reducer 逐 行 读 取 Mapper 的 输出 ， 保 存 每 分 钟 每 个 地 理 位 置 
的 点 击 计 数值 。 因 此 ， 它 把 Mapper 输 出 的 每 个 “key” 存 储 到 一 个 
Python 字典 中 ， 每 次 遇 到 Mapper 的 输出 有 相同 的 “key”， 就 把 其 在 字 
典 中 的 计数 值 增 加 1。Python 字 典 看 起 来 大 概 如 下 : 





“12: 00, 40.7308, -73. 9970”: 128, 
“12: 00, 37.7791, -122. 4200”: 33, 
”12: 00, 32.7781, -96. 7954”: 17, 

#cut off for brevity: 

”12: 01, 40.7308, -73. 9970”: 119, 
“12: 01, 37.7791, -122. 4200”: 45, 
“12: 01, 32.7781, -96. 7954”: 27, 


一 旦 Reducer 读 取 了 Mapper 的 所 有 的 数据 输入 ， 它 对 数据 进行 排序 
(基于 key)， 然 后 输出 排序 的 结果 : 


最 初版 本 中 Mapper 和 Reducer 的 代码 如 下 : 


Mapper 

#! /usr/bin/env python 

import sys 

#input comes from STDIN(standard input) 
for line in sys. stdin: 

#remove leading and trailing whitespace 


line=line. strip (©) 

#split the line into words 

words=line. split C \t’ ) 

try: 

#output the following: 

#time (HH:MM), latitude, longitude 1 

time=words[1] 

hours, mins, secs=time. split (”: ^) 

t=hours+”: “+mins 

print’ %s, %s, %s\t%s’' % (t, words[44], words[45], 1) 

except Exception: 

pass 

Reducer 

#! /usr/bin/env python 

from operator import itemgetter 

import sys 

locations={} 

#input comes from STDIN 

for line in sys. stdin: 

#remove leading and trailing whitespace 

line=line. strip (©) 

#parse the input we got from mapper. py 

key, count=line. split C \t’ ) 

try: 

#update the count for each location(lat/Ing pair) 

#per minute of the day 

count=int (count) 

locations [key]=locations. get (key, 0) +count 

except Exception: 

#count was not a number or some other error, 

#so silently ignore/discard this line 

pass 

#sort the data and then output 

sorted locations=sorted(locations. items () , 
key=itemgetter (0) ) 

for key, count in sorted locations: 

try: 

time, lat, lIng=key. split C, °) 

print’ %s, %s, %s, %s’ %( (tme, lat, Ing, count) 

except Exception: 

pass 


新 的 数据 格式 


在 原始 访问 数据 上 运行 完 新 的 map/reduce 脚 本 后 ， 我 们 得 到 了 一 
组 更 准确 的 数据 集 。 这 个 过 程 不 仅 减少 了 总 的 数据 量 ( (Wb 站 点 的 访问 
数据 ， 从 3000 万 行 左 右 减 少 到 300 万 行 ) ， 而 且 为 我 们 生成 了 每 个 地 理 
位 置 的 计数 值 。 现 在 ， 我 们 需要 确定 比例 因子 。 以 下 是 新 的 结果 数据 
的 样本 一 一 注意 时 间 戳 、 纬 度 、 经 度 和 “每 分 钟 的 ) 点 击 计数 值 。 


12: 00, 039.948, —074.905, 128 
12: 00, 039.949, —082.057, 1 
12: 00, 039.951, —105.045, 3 
12: 00, 039.952, —074.995, 1 
12: 00, 039.952, —075. 164, 398 
12: 00, 039.960, —075. 270, 1 
12: 00, 039.963, —076.728, 4 
12: 00, 039.970, —075. 832, 2 


12: 00, 039.970, —086. 160, 4 


12: 00, 039.975, —075. 048, 23 


可 视 化 比例 和 其 他 可 视 化 优化 


有 了 新 形式 的 数据 ， 我 们 不 再 是 每 秒 钟 为 每 次 点 击 画 一 个 点 ， 而 
是 可 以 每 分 钟 为 每 个 地 理 位 置 的 点 击 数 值 夯 一 个 圆圈 ， 并 根据 点 击 数 
计算 圆圈 大 小 。 这 种 方式 可 以 生成 期 望 的 比例 显示 ， 使 得 可 视 化 的 读 
者 可 以 轻松 地 区 分 来 自 加 拿 大 农村 和 纽约 市 的 不 同 的 流量 差别 。 





这 种 方式 也 极 大 地 减少 了 应 用 程序 需要 的 内 存量 。 我 们 还 是 需要 
在 内 存 中 保存 Web 站 点 和 手机 网 站 的 所 有 点 击 (这 样 我 们 才能 消 隐 去 时 
间 超过 3 分 钟 的 点 击 ) ， 但 是 因为 我 们 现在 保存 的 是 每 分 钟 每 个 地 理 位 
置 的 点 击 数 ， 极 大 地 减少 了 需要 的 Hit 对 象 数量 。 对 于 任 一 分 钟 ， 来 自 
全 世界 的 流量 通常 包含 2000 一 3500 个 不 同 的 地 理 位 置 。 每 个 位 置 的 Hit 
对 象 必须 存储 在 内 存 中 ; 每 个 Hit 对 象 生命 期 是 3 分 钟 ， 因 此 对 于 任 一 
时 刻 ， 内 存 中 可 能 有 6000 一 12000 个 对 象 一 一 数量 还 是 很 多 ， 但 是 已 经 
远 远 小 于 前 一 版 本 的 对 象 数量 。 











现在 ， 需 要 更 新 Processing 应 用 程序 ， 从 而 可 以 实时 保存 每 个 位 
置 在 任 一 时 刻 的 点 击 数 ， 而 且 圆圈 大 小 比例 可 以 根据 点 击 数 调整 。 我 
们 一 起 看 个 简单 的 例子 。 





假定 数据 是 来 自 于 纽约 是 茶 个 特定 的 纬度 /经 度 的 对 Web 站 点 的 访 
问 日 志 《数据 集中 有 非常 多 这 样 的 数据 ) 。 只 碍 看 一 天 中 很 短 的 一 段 








时 间 ， 假 定 在 茶 个 时 刻 ， 点 击 数 如 下 : 


| 一 


2: 00-100 hits 


Á 


2: 01-110 hits 


12: 02-90 hits 


12: 03-80 hits 


上- 一 


2: 04-100 hits 


当 在 地 图 上 为 这 个 地 理 位 置 的 点 击 数 画 圈 时 ， 我 们 希望 圆圈 大 小 
能 够 反映 点 击 数 ， 这 样 可 以 显示 比例 。 然 而 ， 我 们 不 能 简单 地 基于 当 
前 一 分 钟 周期 内 的 初始 点 击 / 查 看 计数 值 来 计算 圆圈 大 小 。 为 什么 呢 ? 
记 住 通常 对 一 个 站 点 的 访问 能 够 持续 3 分 钟 ， 因 此 我 们 决定 为 每 个 地 理 
位 置 的 点 击 数 保 留 3 分 钟 ， 只 有 当 超 过 3 分 钟 后 才 把 这 些 地 理 位 置 的 计 
数值 删除 。 使 用 以 上 的 点 击 计数 ， 每 分 钟 总 的 点 击 计 数值 将 会 如 下 : 


| 一 


2: 00-100 hits(assuming no previous hits) 


| 一 


2: 01-210 hits (100+110) 


上 -一 


2: 02-300 hits (100+110+90) 


| 一 


2: 03-280 hits (110+90+80) 


12: 04-270 hits (90+80+100) 





注意 ， 对 于 任意 茶 一 分 钟 ， 我 们 都 保存 了 该 时 刻 的 新 的 计数 值 以 
及 其 之 前 两 分 钟 的 点 击 计数 值 。 


更 新 Processing 应 用 程序 代码 ， 保 存 每 分 钟 每 个 地 理 位 置 的 总 的 
点 击 数 ， 生 成 的 结果 如 图 16-4 所 示 。 该 新 版 本 允许 我 们 碍 看 任何 时 刻 
地 图 上 不 同 地 理 位置 的 点 击 比 例 显示 ， 而 且 也 说 明了 该 比例 如 何 基于 
每 个 地 理 位 置 的 流量 的 增长 而 扩大 ， 或 减少 而 收缩 。 
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; 
. 








图 16-4: 更 新 后 的 可 视 化 显示 了 在 2009 年 ?月 25 日 《纽约 时 报 》Web 
站 点 nytimes. com 和 手机 网 站 mobile. nytimes. com A SE 的 流量 一 一 


黄色 圆圈 表示 到 Web 站 点 的 流量 ， 而 红色 圆圈 表示 到 手机 网 站 的 流量 
( 见 彩 图 126 ) 


使 定时 拍摄 能 够 正常 工作 


对 Processing 应 用 程序 进行 升级 使 其 能 够 处 理 新 的 数据 格式 和 方 
法 ， 在 此 之 后 ， 我 们 创建 了 一 个 完整 的 历时 24 小 时 的 定时 拍摄 视频 。 
我 们 新 的 代码 每 次 能 够 正常 运行 几 个 小 时 ， 不 存在 之 前 过 到 的 内 存 和 
整体 机 器 延 时 ， 现 在 是 生成 完整 的 定时 拍摄 视频 的 时 候 了 。 不 再 像 第 
一 次 那样 尝试 在 地 图 上 为 历时 24 小 时 定时 拍摄 泻 染 Web 站 点 和 手机 网 站 
数据 ， 我 们 只 使 用 手机 网 站 的 数据 (其 数据 量 大 约 是 Web 站 点 数据 量 的 
10%) ; 这 样 ， 我 们 就 可 以 比 同时 演 染 Web 站 点 和 手机 网 站 数据 更 快 地 
查看 到 结果 或 者 发 现 可 能 存在 的 问题 。 





由 于 不 确定 应 该 对 24 小 时 的 定时 拍摄 进行 多 大 程度 的 收缩 (视频 
应 该 在 1 分 钟 、10 分 钟 还 是 中 间 某 个 值 的 时 间 内 ， 展 示 完 整 的 24 小 时 拍 
$x?) ， 我 们 决定 测试 一 下 ， 采 用 10 分 钟 。 该 项 目 最 激动 人 心 的 时 刻 
之 一 是 当 我 们 首次 尝试 泻 染 24 小 时 的 手机 网 站 数据 时 ， 点 击 
Processing 的 运行 (〈Rn) 按钮 那 一 刻 。 把 数据 在 一 人 台 MacBook Pro 机 上 
泻 染 成 10 分 钟 的 定时 拍摄 视频 花 了 约 2 个 小 时 。 结 果 生 成 了 ! 








大 家 互相 击 拳 祝 贵 后， 开始 观看 视频 。 看 了 大 约 两 分 钟 ， 我 们 意 
识 到 视频 时 间 太 长 了 一 一 感觉 视频 太 慢 了 ! 开始 重新 装载 数据 ， 创 建 
一 个 历时 接近 1. 5 分 钟 的 视频 。 经 过 几 次 尝试 以 及 对 代码 和 帧 速率 的 调 
整 ， 我 们 生成 了 新 的 视频 。 对 较 小 规模 的 手机 网 站 数据 集 进 行 泻 染 可 


以 正常 工作 后 ， 我 们 开始 在 Web 站 点 和 手机 网 站 的 混合 数据 集 上 洽 试 。 
由 于 数据 量 比 之 前 大 得 多 ， 演 染 花费 的 时 间 也 长 很 多 一 一 之 前 是 2 个 小 
时 ， 这 次 泻 染 伦 了 24 一 36 小 时 ， 这 取决 于 其 所 用 的 机 需 的 性 能 。 





半 目 动 化 





最 后 ， 我 们 希望 能 够 对 整个 过 程 实现 自动 化 ， 这 样 程序 接收 到 输 
入 命令 后 ， 可 以 执行 任何 一 天 的 定时 拍摄 泻 染 。 该 过 程 现在 古 半 自动 
化 的 ， 我 们 可 以 很 容易 为 同一 天 演 染 多 个 定时 拍摄 的 视频 。 举 个 例 
子 ， 我 们 可 以 针对 以 下 任何 一 种 情况 进行 泻 染 : 








”世界 地 图 的 Web 站 点 和 手机 网 站 的 数据 。 


”美国 地 图 的 Web 站 点 和 手机 网 站 的 数据 。 





。 世界 地 图 和 美国 地 图 的 Web 站 点 的 数据 。 








”世界 地 图 和 美国 地 图 的 手机 网 站 数据 。 





每 种 类 型 的 数据 需要 花 多 长 时 间 演 染 ? 这 取决 于 日 期 以 及 那 一 天 
是 侍 是 重大 新 闻 日 ( 即 是 否 有 很 大 流量 ) 。 平 均 来 说 ， 以 下 是 该 可 视 
化 大 约 的 输入 数据 量 和 泻 染 花费 的 时 间 : 





手机 网 站 数据 


数据 文件 约 7MB、30 万 行 


泻 染 时 间 约 2 个 小 时 


Web 站 点 数据 


数据 文件 约 70MB、300 万 行 


泻 染 时 间 约 1 一 2 天 


Web 站 点 + 手机 网 站 数据 


数据 文件 约 77MB、330 万 行 


泻 染 时 间 约 1 一 2 天 


泻 染 定 时 拍摄 视频 的 数据 计算 


在 Processing 应 用 程序 内 ， 我 们 每 秒 钟 捕获 15 帧 的 视频 。 对 于 每 
一 帧 ， 在 屏幕 上 绘制 了 1 分 钟 的 日 志 量 。 对 于 24 小 时 的 数据 量 ， 需 要 捕 
获 1440 分 钟 的 数据 。 把 每 15 分 钟 的 数据 泻 染 成 时 间 长 度 为 一 秒 的 视 
频 ， 则 1440 分 钟 的 数据 会 生成 96 秒 钟 的 视频 ( 约 1. 5 分钟)。 





生成 的 视频 有 什么 用 


在 本 书 要 付 印 时 ， 我 们 刚刚 完成 对 数 天 的 数据 进行 泻 染 。 在 纽约 
时 报 大 厦 28 层 的 走廊 上 挂 着 10 台 监视 器 ， 播 放 着 我 们 所 做 的 一 些 可 视 
化 视频 ， 包 括 这 些 流量 图 。 其 中 有 6 台 监 视 器 自动 播放 本 章 介 绍 的 定时 
拍摄 视频 ， 其 他 4 人 台 屏幕 上 显示 的 是 《纽约 时 报 》Web 站 点 和 手机 网 站 
当天 全 部 流量 的 快照 (美国 和 全 球 ) 。 我 们 开始 在 公司 内 分 享 这 些 视 
频 ， 并 且 探 索 更 多 的 可 视 化 来 查看 一 天 内 可 以 发 现 哪 些 模 式 。 我 们 还 
观察 “重大 新 闻 日 ”和 “平常 日 ” 中， 用 户 使 用 模式 的 差异 。 




















结束 语 


我 们 从 目前 创建 的 可 视 化 中 观察 到 了 一 些 有 趣 的 模式 ， 绝 大 多 数 
如 图 16-5 到 图 16-8 所 示 。 


MOBILE Just 








图 16-5: 手机 网 站 mobile. nytimes. com 在 2009 年 6 月 25 日 这 一 天 在 美 
的 流量 ( 见 彩 图 127) 


MOBILE June 25 200! 





图 16-6: 手机 网 站 mobile. nytimes. com 在 2009 年 6 月 25 日 这 一 天 在 全 
球 的 流量 ( 见 彩 图 128) 








图 16-7 Web 站 点 nytimes. com 在 2009 年 6 月 25 日 这 一 天 在 美国 的 流量 
( 见 彩 图 129) 





图 16-8 Web 站 点 nytimes. com 在 2009 年 6 月 25 日 这 一 天 在 全 球 的 流量 
( 见 彩 图 130) 


第 一 个 模式 是 手机 网 站 的 流量 在 美国 约 早上 5 点 或 6 点 开始 暴涨 ， 
该 时 段 人 们 醒 来 开始 去 上 班 〈 尤 其 是 在 东海 岸 ) 。 在 约 8 点 半 或 9 点 人 
们 到 达 办 公 室 前 ， 手 机 网 站 流量 一 直 很 大 ， 而 当 人 们 到 达 办 公 室 时 ， 
Web 站 点 流量 开始 第 一 次 大 增 。Web 站 点 的 流量 在 一 整 天 都 很 大 (尤其 
古 午饭 时 间 〉 ， 下 午 稍 有 点 下 降 ， 很 可 能 是 人 们 在 下 班 路 上 ， 而 这 时 
手机 网 站 的 流量 又 开始 增加 。 这 个 观察 和 我 们 开始 研究 前 的 预期 相 
同 ， 但 是 该 可 视 化 进一步 证 实 了 我 们 的 猜想 。 











另 一 个 有 趣 的 模式 是 Web 和 手机 网 站 的 国 际 流量 都 很 大 ， 非 洲 、 中 
、 印 度 和 日 本 某 些 地 区 的 手机 网 站 流量 也 很 大 。 











我 们 相信 和 从 国 际 性 和 美国 内 的 流量 上 可 以 观察 到 更 多 有 趣 的 模 
式 ， 由 于 可 以 从 流量 数据 中 泻 染 更 多 的 视频 ， 我 们 将 会 探索 这 些 模 
式 。 我 们 邀请 你 也 一 起 来 观 紧 ， 并 告诉 我 们 你 所 观察 到 的 模式 ! 你 可 
以 从 下 面 的 链接 中 查看 一 些 可 视 化 例子 : 


http: //nytlabs. com/dataviz/. 


1]: 两 个 大 圆圈 在 Dallas、Texas、Waterloo 和 Ontario 附 近 。 这 些 
城市 都 是 手机 网 站 的 中 枢 城市 〈 如 Water1loo 是 黑莓 /RIM 的 总 部 ) ， 大 
量 的 手机 流量 在 到 达 我 们 的 服务 器 前 是 先 通过 Dallas 和 Waterloo 的 代 
理 服 务 器 中 转 的 。 
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第 17 草 ”深入 揭秘 复杂 系统 ”Lance 
Putnam, GrahamWakefield, Haru Ji, 
Basak Alper, Dennis Adderton#l JoAnn 


Kuchera-Morin 
媒体 艺术 和 技术 ， 加 州 大 学 圣 巴 巴 拉 分 校 
多 模式 “竞技 场 ” 


走 进 现实 版 的 “全 息 甲板 ( CHlodeck)” |!) 或 “大 脑 ”， 进 入 一 
个 从 未 见 过 的 、 晨 撼 人 心 的 新 世界 ， 这 会 是 一 种 什么 样 的 感觉 ? 除 此 
之 外 ， 大 上 自然 中 迄今 为 止 仍然 未 知 的 方方面面 ， 如 果 我 们 突然 能 够 杀 
身体 验 一 下 ， 那 义 会 是 一 种 什么 样 的 感觉 ? 实际 上 ， 这 些 问题 也 正 是 
位 于 美国 加 州 的 加 州 大 学 对 巴巴 拉 分 校 纳米 技术 研究 所 Al1loSphere 项 
A O 的 科学 家 和 艺术 家 们 正在 探索 的 。 我 们 拥有 一 台 设 备 ， 这 台 设 
备 使 得 我 们 有 能 力 对 复杂 、 高 维 的 数据 和 系统 进行 探索 并 与 之 交互 
一 一 无 论 是 亚 原 子粒 子 、 移 动 接 入 网 络 (〈UAN) 装置 抑或 是 一 个 完整 的 
综合 生态 系统 一 一 在 这 人 台 设备 的 帮助 之 下 都 可 以 成 为 能 够 让 人 杀身 体 
验 的 世界 。 

















Al11oSphere 是 世界 上 最 大 的 兼 具 科学 性 和 艺术 性 的 设备 ， 也 可 以 
称 作 实验 室 。 其 功能 涵盖 “沉浸 式 可 视 化 ”( Cimersive 
visualization) > 、“ 可 听 化 ”( (snification) 和 多 模式 数据 管 
理 。A11oSphere 是 一 个 三 层 楼 高 的 球体 ， 为 改善 其 感知 体验 而 进行 了 
良好 的 译 调 校 ， 拥 有 一 个 360” 视角 的 、 超 黑 、 非 反射 的 大 屏幕 ， 屏 幕 
四 周 环绕 布置 了 一 套 多 路 扬声器 阵列 ， 整 个 系统 位 于 一 个 无 回声 的 工 
作 室 中 ， 如 图 17-1 所 示 。 站 在 中 央 桥 〈 见 图 17-2) 上 的 多 个 用 户 在 体 
验 着 立体 图 投影 和 空间 声音 的 同时 ， 还 可 以 通过 无 数 的 多 模式 设备 进 








图 17-1: 真实 比例 的 AlloSphere 虚 拟 模 型 ( 见 彩 图 131) 








图 17-2: AlloSphere 的 全 景 图 ( 见 彩 图 132) 


AlloSphere 的 构想 源 于 作曲 家 JoAnn Kuchera-Morin， 和 希望 能 够 找 
到 一 种 通用 的 可 以 挑战 视觉 和 听觉 极限 的 多 媒体 设备 ， 从 而 为 艺术 表 
现 和 科学 探索 找到 新 的 模式 。 其 目的 是 为 各 个 领域 的 研究 人 员 提 供 一 
个 共同 的 场所 来 分 享 见解 并 共同 探索 类 似 于 对 称 性 、 美 丽 、 模 式 形成 
和 出 现 等 类 型 的 基础 问题 。 面 对 这 样 一 个 独一无二 的 机 遇 ， 我 们 期 望 
能 够 建立 起 一 种 同时 以 艺术 和 科学 这 两 门 学 科 为 基础 而 不 局 限于 其 中 
任何 一 门 的 前 沿 研究 。 这 就 需要 对 我 们 的 创造 性 方法 的 基础 因素 进行 
全 局 性 的 反思 : 计算、 数据、 处理、 感知、 交互 、 融 入 和 评估 。 


在 AlloSphere 项 目 中 ， 艺 术 家 、 科 学 家 和 工程 师 一 起 工作 ， 通 过 
独特 而 且 有 趣 的 模拟 和 可 视 化 方式 来 揭 开 新 的 世界 的 面纱 ， 我 们 正在 
实现 我 们 的 “ 美 即 真 ” 的 理念 。 我 们 通过 对 有 趣 的 方程 进行 可 视 化 和 
可 听 化 的 方式 帮助 研究 人 员 发 现 了 这 个 真理 。 这 些 可 视 化 为 展开 等 式 
方程 提供 了 优雅 的 解决 方案 。 随 着 这 些 方 程 的 展开 ， 我 们 既 能 够 发 现 
其 中 的 对 称 性 也 能 找到 残缺 的 对 称 性 。 

[1] “Holodeck”， 全 息 甲板 ， 指 的 是 《星际 迷航 》 电 影 中 的 一 种 高 
科技 设备 。 如 想 要 了 解 更 多 ， 可 以 参考 http: //memory- 

alpha. org/wiki/Holodeck. 

[2] Al11oSphere 是 加 州 大 学 圣 巴巴 分校 的 一 个 雄心 勃勃 的 项 目 ， 试 图 


以 全 新 的 视角 去 观察 和 诠释 科学 数据 。 后 面 会 介绍 更 多 。 
[3] “沉浸 式 可 视 化 ” 即 多 维 的 可 视 化 ， 用 户 可 以 融入 其 中 去 体验 和 


感受 。 





创造 性 思维 的 路 线 图 


Al11oSphere 确 实 为 新 型 路 学 科研 究 提供 了 有 趣 的 、 互 动 的 和 多 模 
式 的 环境 。 从 一 开始 ， 它 就 采用 了 定量 和 定性 相 结 合 的 方式 来 解决 和 
发 现 问题 。AlloSphere 还 提供 了 独特 的 体验 方式 一 一 “开局” 用 户 的 
所 有 感官 一 一 杀身 体验 复杂 的 系统 如 何 随 着 时 间 展 开 。 在 确定 如 何以 
计算 机 语言 进行 描述 以 及 如 何以 语 于 美感 上 且 对 称 的 方式 来 展示 系统 的 
过 程 中 ， 我 们 发 现 美 丽 和 对 称 之 间 存 在 一 些 共同 的 主题 。 因 此 ， 构 建 
美丽 的 可 视 化 的 挑战 和 机 过 在 于 ， 在 数学 真理 和 感性 表达 中 找到 一 种 
平衡 ， 从 而 引出 了 一 种 认识 论 的 新 型 的 艺术 和 研究 。 











美丽 和 对 称 





室 无 疑问 ， 美 丽 在 我 们 的 感知 中 起 着 至 关 重 要 的 作用 ， 它 和 对 称 
性 密切 相关 。 实 际 上 ， 从 古代 Pythagoreans 时 期 '! 开始 ， 美 丽 和 对 
称 之 间 的 关系 就 已 经 非常 密切 ，Pythagoreans 认 为 美丽 的 核心 在 于 各 
个 组 成 部 分 的 比例 以 及 它们 之 间 的 相互 关系 ， 而 对 称 与 和 谐 分 别 是 视 
觉 和 听觉 领域 的 相互 关系 ( (Ttarkiewicz 1972) 。 纵 观 我 们 的 整个 文 
明史 ， 这 个 理论 经 久 不 衰 。 





事实 上 ， 对 称 性 一 一 其 更 正式 的 定义 是 “变换 不 变性 ” 


( (ivariance to transformation) ( (Wyl 1952) 一 一 是 一 些 最 深远 


的 科学 理论 的 本 质 基础 ， 包 括 狭 义 相 对 论 、 守 恒定 律 和 旋 理论 。 对 称 
性 在 计算 模拟 上 也 起 到 了 相当 鲜 为 人 知 但 却 至 关 重 要 的 作用 。 在 古 

代 ， 我 们 只 能 观察 到 周围 的 自然 形态 ; 今天 ， 通 过 计算 能 够 文 持 的 比 
例 控制 ， 我 们 能 够 精确 地 目 主 构建 生成 出 具有 复杂 的 目 然 模式 的 系 

统 。 在 这 些 复杂 的 模式 的 核心 中 ， 我 们 确实 发 现 了 对 称 性 。 实 际 上 ， 
对 称 性 经 常 能 够 指导 我 们 在 数据 中 搜寻 有 意义 模式 的 研究。 

















[1] Pythagofeans 是 公元 前 6 世纪 希腊 哲学 家 、 数 学 家 。 


计算 方法 


计算 和 数学 为 科学 模型 和 艺术 实践 提供 了 很 好 的 共同 语言 。 计 算 
是 科学 模拟 的 重要 工具 ， 而 且 是 艺术 的 开放 性 素材 。 通 过 设计 和 实例 
化 复杂 的 自治 系统 ， 我 们 改 开 了 基于 部 件 人 工 合成 的 新 的 知识 领域 的 
KUON, 








不 管 我 们 想 要 问 的 是 什么 问题 ， 计 算 要 求 我 们 必须 对 数据 的 基本 
组 件 有 正式 、 确 定 的 描述 ， 并 对 实时 处 理 中 的 局 限 性 有 充分 的 考虑 。 
我 们 发 现 ， 特 别 是 基于 物理 的 模型 ， 需 要 处 理 的 数据 主要 包含 与 空间 
和 /或 时 间 关 联 的 值 。 这 些 值 表示 特定 的 内 部 强度 ， 比 如 速度 、 流 量 、 
频率 或 复杂 阶段 ， 而 且 通 常 与 空间 的 位 置 和 /或 时 间 关 联 。 我 们 采用 的 
很 多 可 视 化 技术 需要 筛选 出 菏 个 特定 位 置 《 如 交叉 位 置 ) 的 值 或 茶 个 
特定 值 的 位 置 。 


程序 执行 时 如 何 对 这 些 值 和 位 置 进行 初始 化 是 不 一 样 的 。 值 可 以 

显 式 的 《比如 定期 采样 点 或 位 置 / 值 组 合 对 ) 或 隐 式 的 “使 用 公式 或 
算法 实时 计算 ) 。 同 样 ， 位 置 可 以 是 显 式 的 〈 作 为 位 置 / 值 组 合 对 ) 或 
隐 陈 的 《根据 规则 网 格 维度 确定 ) 。 








在 各 种 不 同 的 计算 模型 中 ， 我 们 观察 到 了 数据 存储 和 处 理 的 3 种 通 
用 模式 : 


© 作为 样本 值 的 规则 网 格 。 


。 作为 位 置 / 值 组 合 对 的 集合 。 





”作为 位 置 函数 。 


前 两 种 模式 之 间 的 区 别 与 计算 机 上 图 像 的 两 种 通用 的 展现 方式 间 
的 区 别 相 同 : 基于 光栅 《〈 作 为 像素 矩阵 ) 或 基于 天 量 〈 作 为 用 曲线 连 
接 的 一 组 点 的 集合 ) 。 第 三 种 模式 看 起 来 更 像 一 个 黑 例 和子， 输入 是 一 
个 位 置 ， 输 出 是 一 个 对 应 的 值 。 





每 种 模式 都 有 自己 特定 的 优 缺 点 。 网 格 允 许 模型 中 包含 未 知 信和 号 
量 和 局 部 交互 ， 但 是 它 需 要 容易 导致 频 谐 混 登 的 取样 ， 同 时 当 要 以 合 
适 的 分 辩 率 进行 系统 建 模 时 可 能 需要 消耗 大 量 的 内 存 。 相 反 地 ， 位 置 / 
值 组 合 对 模式 和 函数 模式 文 持 高 分 辨 率 的 、 任 意 的 空间 分 辨 率 ， 但 是 
实体 之 间 的 交互 建 模 计 算 会 很 复杂 。 


























一 个 很 自然 地 遵循 这 些 模式 的 概念 划分 是 介 于 “时 空 领域 ” 
( (satiotemporal field) 和 “自由 媒介 ”( (fee agent) 之 间 的 。 域 
( feld) 是 一 种 空间 维度 上 的 规则 网 格 (时 间 维 度 可 能 是 变化 的 〉， 
是 复杂 系统 的 底层 。 它 们 定义 了 整个 结构 的 底层 架构 和 系统 的 动力 
学 。 域 表示 如 密度 分 布 、 流 体 和 波 之 类 的 事物 。 很 多 学 科 存 在 域 的 概 
念 : 发 育 生物 学 包含 形态 域 和 遗传 观 ， 进 化 生物 学 包含 适应 观 
( (ftness landscape)， 而 物理 学 包含 量子 学 领域 和 波 函 数 。 媒 介 











(aent) 古 位 置 / 值 组 合 对 的 集合 ， 是 复杂 系统 的 上 层 。 媒 介 代表 实际 
的 离散 实体 ， 在 连续 空间 维度 上 则 可 能 是 移动 的 。 媒 介 使 我 们 能 够 更 
为 细致 地 观察 整个 系统 的 部 件 并 过 小 查看 其 不 变 模式 ， 进 而 能 够 更 清 
晰 地 观察 域 。 此 外 ， 媒 介 往 往 通 过 对 一 个 域 的 值 的 读 写 来 相互 交互 。 








Li]: 举 个 例子 ， 在 人 造 生 物 领域 ,为 了 更 好 地 理解 生物 ， 和 人 们 试图 
通过 digito 软 件 重 构 该 过 程 ， 但 是 它 引 起 了 很 多 关于 人 工 创造 的 讨 


论 。 








作为 过 小 此 来 解释 


我 们 的 工作 不 仅 涉及 复 保 系统 的 设计 和 实例 化 ， 而 且 包 括 过 滤器 
的 组 建 。 过 洲 器 与 系统 的 设计 和 实例 化 同等 重要 ， 其 定位 是 将 硕大 的 
计算 /数学 空间 简化 为 可 以 从 中 观察 并 提取 涵义 的 形式 。 换 句 话 说 ， 可 
视 化 和 可 听 化 都 涉及 材料 的 组 织 ( 组 成 ) 和 作为 我 们 的 研究 目标 的 模 
式 的 展示 (解释) 。 


我 们 经 常 问 自己 这 样 的 问题 “在 数据 或 系统 中 我 们 要 寻找 的 是 什 
么 ? ”对 于 这 个 问题 ， 我 们 可 以 回答 说 是 正在 探索 一 些 有 趣 的 模式 ， 
这 些 模 式 能 够 揭示 系统 展开 过 程 中 的 一 些 本 质 特 性 。 此 外 ， 我 们 发 现 
利用 对 称 性 有 助 于 引导 我 们 找到 重要 的 模式 。 我 们 经 常 应 用 的 可 视 化 
技术 如 等 值 面 、 等 高 线 、 流 线 和 粒子 流 ， 显 示 了 值 〈 或 派生 值 ) 等 价 
或 不 变 的 系统 的 方方面面 。 这 些 “ 袖 珍 对 称 ”( (pckets of 
symmetry) 说 明了 系统 的 相似 性 ， 也 为 对 自己 的 行为 和 模式 的 更 深入 理 
解 建立 了 一 个 恨 好 的 起 点 。 我 们 知道 ， 对 称 性 太 多 会 降低 其 重要 性 ， 
而 太 少 义 会 使 其 显得 过 分 重要 ; 过 滤 一 定 是 沙 于 有 序 和 无 序 这 两 者 之 

一 原则 也 适用 于 时 间 : 兴趣 模式 必须 使 其 特点 保持 足够 长 的 时 
间 以 确保 能 够 和 被 分 辨 出 来 ， 但 是 其 变化 也 必须 足够 频繁 以 吸引 眼球 。 





创建 过 滤器 是 一 个 目 适 应 的 过 程 ， 它 可 以 出 现在 一 个 模式 中 ， 也 
可 以 路 越 多 个 模式 。 我 们 发 现 多 模式 展现 对 于 揭示 隐藏 于 数据 中 的 或 




















者 不 明显 的 对 称 和 不 对 称 性 是 很 重要 的 。 有 时 ， 数 据 集 或 处 理 过 程 的 
最 自然 的 感官 模式 无 法 充分 表达 其 结构 的 重要 特性 。 举 个 例子 ， 我 们 
发 现 波形 的 对 称 性 更 容易 被 观察 到 ， 而 空间 数据 中 被 略微 破坏 的 对 称 
性 更 容易 听 出 。 我 们 使 用 计算 转换 能 力 对 不 同 模型 进行 映射 ， 寻 找 一 
种 平衡 使 得 可 以 给 出 对 当前 现象 进行 更 完整 地 描述 的 大 脑 图 。 实 际 
上 ， 有 证 据 表 明 ， 大 脑 记忆 系统 包含 “情节 缓存 ”( Ceisodic 
buffer) ， 筷 可 以 把 视觉 和 听 筑 感官 信息 集成 到 和 长 期 记忆 交互 的 多 维 
代码 中 ， 因 而 后 续 可 以 影响 长 期 的 学 习 过 程 ( (Bddeley 2000) 。 








基于 媒介 的 模式 在 我 们 的 数据 和 系统 的 过 滤 和 展示 中 扮演 了 一 个 
至 关 重 要 的 角色 。 媒 介 在 视觉 和 听觉 上 都 很 有 吸 引力 ， 因 为 它们 可 以 
更 流畅 、 更 连续 地 运动 ， 其 运动 也 不 会 局 限于 离散 网 格 中 。 因 此 ， 媒 
介 人 允许 我 们 在 一 致 的 结构 中 观察 系统 中 的 主导 模式 ， 从 而 降低 噪音 。 
使 用 媒介 的 一 个 例子 是 使 用 连续 平滑 的 曲线 显示 粗糙 的 采样 域 。 











项 目 探讨 





在 本 章 ， 我 们 将 讨论 6 个 研究 项 目 ， 涵 盖 从 艺术 /科学 数学 抽象 到 
基于 实际 的 科学 数据 和 理论 的 精确 的 计算 模式 的 多 模式 表现 。 我 们 讨 
论 的 范围 非常 广泛 ， 从 真正 的 生物 数据 到 仿生 进化 演化 算法 以 及 原子 
世界 ， 然 后 又 从 原子 层 探 讨 到 单一 所 原子 的 电子 层 ， 我 们 最 后 将 探讨 
展示 电子 上 自 旋 连贯 运动 的 一 个 项 目 。 











Allobrain 


Graham Wakefield, John Thompson, Lance Putnam, Wesley Smith 
和 Charlie Roberts (媒体 艺术 和 技术 ) 


学 科 主 任 : JoAnn Kuchera-Morin 教 授 和 Marcos Novak 教 授 (媒体 
艺术 和 技术 ) 


fEAllobrain, Fk EÈ SARA RE CLAIT-3) 。 使 用 功能 
性 磁 共振 成 像 (〔fRI) 的 结构 化 组 件数 据 创建 了 一 个 “太空 ”， 通 过 它 
遍历 探索 “世界 ”。 原 始 数据 将 大 脑 的 代谢 活动 密度 值 映射 到 了 大 脑 
空间 的 各 个 网 格 内 ; 可视化 包含 数据 集 的 两 个 “等 值 面 ” 
( (iosurface) ， 该 等 值 面 是 根据 fMRI 扫描 得 到 的 大 脑 组 织 的 密度 来 选 
择 的 。《〈 等 值 面 是 由 在 某 一 个 维度 取 值 相同 的 点 构成 的 三 维 等 高 
线 。) 在 Allobrain 这 个 “世界 ”里 ，“ 搜 索 媒介 ”( (sarch agent) 














通过 自动 导航 的 方式 挖掘 出 数据 ， 在 空间 上 和 视觉 上 展示 出 来 ， 然 后 
对 兴趣 区 域 进行 聚 类 ， 并 通过 音乐 通知 我 们 。“ 漫 步 者 媒介 

( (Wnderer agent)， 对 特定 大 脑 区 域 颜色 编码 ， 随 机 访问 数据 ， 碍 找 
高 浓度 的 血液 密度 。“ 漫 步 者 媒介 ”还 可 以 接收 命令 ， 发 送 结果 到 屏 
幕 中 心 ， 而 且 通 过 音乐 表示 血液 密度 等 级 ， 音 调 越 高 血液 密度 越 高 。 











想象 那些 不 仅 适 合 于 医疗 诊断 而 且 适 合 于 认 知 和 感知 的 心理 研究 
的 应 用 : Allobrain 在 单个 视图 中 融合 很 多 维度 的 信息 的 方式 ， 有 助 于 
尽早 发 现 细胞 紊乱 ， 也 有 益 于 理解 大 脑 是 如 何 工作 的 。 实 际 上 ， 视 觉 
艺术 家 兼 跨 领 域 建 筑 师 Marcos Novak 一 一 Allobrain 世 界 及 大 脑 之 父 
一 一 构想 出 该 项 目 正 是 为 了 研究 审美 的 神经 学 基础 。 他 对 于 自己 的 工 
作 有 如 下 描述 : 











当 我 们 说 某 些 事物 是 “美丽 的 ”时 ， 大 脑 的 哪些 部 分 参与 了 该 评 
估 ， 它 们 是 如 何 参 与 的 ?因为 在 艺术 审美 上 人 们 的 观点 和 干 差 万 别 ， 研 
完 “ 美 ”的 更 好 的 方法 可 能 是 专门 研究 仅 有 一 个 或 者 几 个 实例 组 成 的 
封闭 系统 ， 尽 可 能 深入 地 了 解 这 些 实例 ， 然 后 确定 在 该 实例 上 的 特征 
是 否 可 以 泛 化 到 其 他 事物 。 





特别 地 ， 这 项 工作 旨 在 构建 一 种 情景 ， 在 该 情景 中 ， 绝 大 多 数 使 
事物 “美丽 ”的 元 素 都 可 以 调查 。 共 体 如 下 : 





a 





图 17-3: Allobrain 的 内 部 图 ( 见 彩 图 133) 


”这 项 工作 是 否 被 评 为 “美丽 ”。 


”其 生成 方法 和 机 制 。 


> 工作 的 创作 者 、 鉴 定员 和 调查 员 ，。 


此 外 ， 我 们 的 目标 “科学 上 和 艺术 上 ) 是 创建 一 条 反馈 回路 ， 在 
该 回路 中 ， 艺 术 影响 大 脑 ， 而 大 脑 生 成 新 的 数据 ， 这 些 新 数据 创建 新 
艺术 ， 而 艺术 又 反 过 来 影响 大 脑 ， 而 大 脑 又 生成 新 数据 ， 如 此 反复 循 
环 。 











为 了 创建 该 过 程 ， 我 实现 了 一 个 生成 算法 ， 它 可 以 生成 我 本 身 无 
法 具体 给 出 的 激发 因子 ((simuli)， 而 这 些 因子 来 源 于 我 对 “ 美 ” 的 
反应 (视觉 上 和 空间 构成 上 〉。 激 发 因子 包含 以 下 任意 一 种 ;1) 交互 
式 的 /生成 的 移动 /变化 的 图 像 ，2) 该 图 像 的 记录 视频 ， 可 以 使 用 fMRI 
成 像 机 重 放 。fMRI 成 像 机 给 我 播放 了 这 个 视频 (我 之 前 从 未 见 过 〉。 
观看 视频 的 过 程 中 ， 每 当 遇 到 在 我 看 来 非常 美丽 的 场景 时 ， 我 就 点 击 
一 下 按钮 。 对 按钮 的 点 击 动作 会 被 计时 ， 因 此 ， 借 助 时 间 就 可 以 将 点 
击 动作 和 那 一 瞬间 的 大 脑 活动 关联 起 来 。fMRI 成 像 机 的 数据 被 转换 成 
一 种 沉浸 式 的 环境 或 者 说 “世界 ”。 这 一 过 程 可 能 引发 两 种 可 能 : 从 
科学 角度 看 ， 这 种 转换 使 得 结构 化 的 和 功能 上 的 数据 能 够 以 常规 情况 
下 不 可 能 的 可 视 化 方式 来 查看 。 从 艺术 角度 看 ， 它 提出 了 产 新 的 艺术 
形式 ， 在 该 形式 中 ， 大 脑 〈 以 及 思想 ) 生成 世界 ， 而 世界 改变 思想 ， 
思想 又 生成 新 的 世界 ， 如 此 反复 。 在 这 两 种 情况 中 ， 都 可 以 构建 反馈 
回路 ， 在 该 回路 中 ， 用 户 的 反应 有 助 于 生成 激发 因 了 于 ， 该 因子 又 会 激 
发 反应 ， 从 而 放大 了 效果 影 啊 。 














目前 ，Allobrain 揭 示 思 想 的 一 个 静态 快照 。 随 着 项 目的 推进 ， 具 
有 实时 交互 功能 的 核磁 共振 成 像 数 据 将 使 研究 人 员 能 够 沉浸 在 上 自己 的 
想法 中 ， 观 察 如 Novak 所 描述 的 转换 和 变化 。 大 脑 将 感知 世界 ， 并 通过 
其 感知 改造 世界 。 


人 工 自 然 


Haru Ji, Graham Wakefield (媒体 艺术 和 技术 ) 


http://artificialnature. mat. ucsb. edu 


现在 我 们 将 话题 从 原始 的 生物 数据 切换 到 作为 生命 之 本 的 过 程 和 
RR. “ALAR” ( (Atificial Nature) 是 一 门路 学 科 的 研究 项 
目 ， 是 一 种 受 生物 启发 的 虚拟 艺术 装置 ， 其 基础 是 从 系统 生物 学 、 人 
工 生命 、 复 杂 性 科学 中 演化 而 出 的 生成 模型 而 不 是 经 验 数 据 。 人 工 自 
然 的 计算 世界 是 一 个 生态 系统 ， 由 在 动态 环境 中 交互 的 有 机 体 组 成 ， 
观众 可 以 和 这 些 有 机 体 进行 交互 。 





环境 是 基于 流体 动力 学 的 空间 域 。 流 消 于 其 中 的 简单 粒子 流 具 有 
不 同 的 营养 类 型 〈 色 调 ) 和 能 量 水 平 〈“ 亮 度 ) ， 彼 此 互动 交互 。 这 些 
粒子 为 生物 体 提供 代谢 燃料 ， 可 以 作为 独立 的 媒介 。 这 两 种 营养 物质 
的 摄 入 和 代谢 废物 的 处 理 都 是 生存 和 繁殖 的 必要 条 件 。 








生物 体 的 外 观 和 自主 活动 是 由 对 其 本 身 所 处 的 位 置 〈《 空 间 上 和 历 
史上 ) 的 遗传 描述 的 解释 决定 的 。 举 个 例子 ， 积 累 足 够 的 能 量 可 以 触 
发 一 些 生物 体 通 过 无 性 繁殖 生成 下 一 代 ， 只 存在 很 小 突变 概率 。 这 些 
生物 体 的 形状 是 基于 Boy 曲 面 方程 4 (By 1901) ， 并 随 着 生命 周期 不 断 
变化 来 表示 逐步 的 增长 和 发 展 ， 而 健康 还 是 使 用 不 透明 度 来 表示 。 








摄食 、 繁 殖 和 探测 邻居 等 活动 都 伴随 着 各 种 不 同 的 员 嗽 般 的 歌 


曲 ， 它 在 AL11oSphere 是 完全 空间 化 的 。 这 些 声 音 音质 明朗 、 短 暂 而 富 








I> 
=, 


童 恩 、 紧 密 聚 合 ， 使 得 可 以 很 容易 彼此 区 分 、 定 位 并 连接 到 视 党 活 


观众 可 以 使 用 “六 度 自 由 ”( (sx-degrees-of-freedom) 导航 设备 
自由 、 无 止境 地 探索 世界 并 间接 地 影响 世界 ， 正 如 他 们 儿 时 在 溪流 或 
沙 坑 玩 时 ， 不 时 地 “ 激 起 和 干 层 浪 ”。 通 过 摄像 头 、 麦 克 风 以 及 时 不 时 
的 触摸 收集 到 的 感官 数据 开始 成 为 生物 体 必须 适应 的 环境 条 件 。 流 体 
的 满 流 也 反 过 来 影响 观众 的 探索 。 整 个 生态 系统 ， 包 括 观 众 本 身 ， 生 
成 了 连续 模式 的 “自然 美 ”《〈 见 图 17-4 和 图 17-5) 。 








图 17-4: 在 人 工 上 自然 流体 领域 生成 和 分 散 的 人 工 营养 成 分 〈 第 1] 版 
本 : “无 限 博弈 ”， 见 彩 图 134) 


i 


A? , 





图 17-5: 在 人 工 自 然 领 域 生长 和 交互 的 人 造 生物 体 《〈 第 2 版 本 : fi 
体 空间 ”， 见 彩 图 135) 


我 们 在 想 ， 什 么 样 的 艺术 形式 可 以 在 AlloSphere 空 间 中 目 然 进 
化 。 人 工 自然 作为 一 种 虚拟 化 艺术 作品 ， 很 自然 地 回答 了 这 个 问题 。 
人 工 自然 是 在 一 个 兰 代 性 环境 中 的 全 新 的 体验 一 一 一 个 展现 无 限 可 能 
的 世界 。 人 工 自然 的 开放 性 本 质 正 是 基于 人 类 的 复 洒 的 自 适应 系统 。 





REGIE TUR BARES A CUR SSE, MERA BER 
融入 了 生态 系统 网 络 中 。 


人 工 自 然 本 身 是 一 个 有 较 大 发 展 的 项 目 。 随 着 我 们 在 其 中 和 仍 入 更 
多 的 维度 和 关系 ， 新 的 模式 潜能 、 结 构 、 涵 义 和 美 丽 开始 出 现 。 


Basak Alper, Wesley Smith, Lance Putnam#llCharlie 


Roberts (媒体 艺术 和 技术 ) , Anderson Janotti (材料 研究 实验 室 


学 科 主 任 : JoAnn Kuchera-Morin 教 授 ( 煤 体 艺术 和 技术 ) ， 
Chris G. Van de Walle 教 授 (材料 研究 实验 室 ) 


谈 完 生 物 和 宏观 世界 ， 我 们 现在 开始 探讨 原子 世界 以 及 无 污染 科 
技 的 新 材料 化 合 物 一 一 多 中 心 氧 键 。 它 是 制造 透明 太阳 能 电池 和 低 成 
本 显示 设备 的 非常 关键 的 一 环 。 通 常情 况 下 ， 氧 和 其 他 元 素 一 起 形成 
共 价 键 ( 指 的 是 所 和 其 他 元 素 共享 一 对 电子 一 一 因为 氢 只 有 一 个 电 
子 ， 它 每 次 只 能 形成 一 对 共 价 键 )， 但 是 在 氧化 锌 晶体 中 ， 它 和 4 个 锌 
原子 形成 共 价 键 ， 生 成 一 个 四 面体 键 结构 。 








加 州 大 学 对 巴巴 拉 分 校 (〔USB) 固 态 照 明和 能 源 中 心材 料 科 学 研究 
所 的 同事 发 现 了 这 种 独特 的 氨 键 结构 ， 和 希望 由 我 们 以 他 们 现 有 的 工具 
所 无 法 做 到 的 方式 来 从 视觉 上 和 听觉 上 展示 他 们 的 模拟 数据 。 我 们 拿 
到 的 数据 是 氧 键 品 体 的 三 维 晶 格 的 静电 电荷 密 度 。 对 这 类 “ 体 数据 
( (vlumetric data)” |") 进行 可 视 化 具有 很 大 挑战 ， 因 为 无 法 通过 
自然 途径 看 到 坚实 的 固体 内 部 。 








可 视 化 体 数 据 的 一 种 通用 的 方法 是 绘制 等 值 面 来 显示 内 部 曲 率 。 

对 电 和 荷 密度 应 用 等 值 面 ， 键 结构 形状 更 加 清晰 易 见 ， 这 种 方式 和 在 地 
图 上 使 用 等 高 线 来 表示 不 同 高 度 变化 类 似 。 在 局 部 数据 域 中 查找 最 大 
值 /最 小 值 对 于 科学 家 也 是 一 个 非常 重要 的 功能 ， 它 能 够 帮助 人 们 识别 
出 键 中 的 临界 区 。 我 们 通过 使 用 梯度 场 描述 体 数据 域 的 方式 解决 了 这 
个 问题 。 刚 开始 ， 我 们 没有 得 到 任何 结果 ， 因 为 数据 抽样 时 所 用 的 采 
样 间 阳 远大 于 查找 区 域 。 我 们 解释 了 可 视 化 算法 的 工作 方式 ， 从 而 说 
服 了 科学 家 们 生成 分 辩 率 更 高 的 数据 。 得 到 高 分 辩 率 的 数据 之 后 ， 在 
梯度 场 绘制 零 值 等 值 面 成 功 地 说 明了 局 部 极 大 值 / 极 小 值 域 。 





























为 了 找 出 更 多 的 局 部 极 大 值 / 极 小 值 域 形 状 ， 我 们 使 用 了 称 为 “ 流 
线 ”( Csreamline) 的 可 视 化 技术 ， 它 生成 沿 着 向 量 场 流动 的 曲线 。 我 
们 将 流 线 的 起 点 定 在 所 原子 中 心 附 近 ， 人 允许 它 顺 着 梯度 场 递 减 的 方 癌 
问 外 流出 ， 使 用 色调 表示 运动 速度 ， 红 色 代 表 快 ， 绿 色 代 表 慢 。 虽 然 
我 们 的 科学 家 伙伴 最 初 觉得 流 线 很 怪异 ， 但 是 最 终 流 线 证 明了 其 有 效 
性 ， 它 们 能 够 在 键 结构 的 临界 区 融合 在 一 起 。 














我 们 对 标准 可 视 化 工具 进行 了 扩展 ， 增 加 了 可 视 化 模式 的 选择 功 
能 和 在 单 张 视图 内 登 加 选 定 的 多 种 可 视 化 的 功能 〈“ 见 图 17-6〉。 在 一 
张 视 图 中 包含 不 同 层次 的 信息 需要 绘制 一 张 图 ， 能 够 最 大 限度 地 降低 
混乱 和 模糊 。 为 此 ， 我 们 使 用 了 一 种 自 定义 的 照明 算法 ， 它 减少 照明 
扩散 从 而 突出 等 值 面 的 曲率 。 我 们 对 透明 和 线 框 泻 染 进 行 了 混合 ， 减 





少 存在 多 个 透明 区 域 的 错觉 。 我 们 发 现 流 线 和 等 值 面 是 自然 的 视觉 补 
充 ， 因 为 它们 能 够 在 垂直 方向 上 显示 信息 。 同 时 ， 在 视觉 上 看 ， 显 示 
流 线 和 等 值 面 要 比 显 示 多 层 等 值 面 的 效果 更 好 ， 因 为 流 线 和 等 值 面 在 
视觉 上 很 容易 区 分 。 

















图 17-6: 包含 4 个 锌 原子 的 四 面体 气 键 的 特写 图 ( 蓝 色 ， 见 彩 图 
136) 





除了 可 视 化 ， 我 们 使 用 空间 音频 来 定位 晶体 中 键 的 位 置 和 用 户 的 
位 置 〈 见 图 17-7) 。 为 了 给 原子 添加 音调 特征 ， 我 们 按照 10 个 八 度 音 
阶 ， 根 据 气 、 锌 和 和 氧 的 放 冉 频率 来 调节 其 音调 ， 生 成 气 、 锌 和 氧 的 放 
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图 17-7: 沉浸 于 氢 键 中 的 研究 人 员 〈 见 彩 图 137) 





由 于 数据 具有 时 间 不 变性 和 三 维特 征 ， 因 此 如 何 为 它 配 音 是 一 个 
很 大 的 挑 盛 。 我 们 提出 的 一 个 解决 方案 是 扫描 参数 曲线 的 密度 场 。 我 
们 使 用 Lissajous 曲 线 > ， 因 为 它 展现 出 高 维度 的 空间 对 称 性 和 平滑 
性 ， 最 大 限度 地 减少 音色 失真 。 虽然 该 技术 不 具备 视觉 补充 ， 但 它 生 
成 的 特征 化 音调 有 助 于 定位 氢 键 ， 从 而 产生 更 完整 的 多 模式 体验 。 











[1] 在 医药 学 应 用 中 ， 通 过 MRT 或 CT 得 到 的 数据 称 为 体 数据 。 


[2] Lissajous 曲 线 ， 其 数学 定义 是 指 两 条 沿 着 互相 垂直 方向 的 正弦 振 
动 所 合成 的 轨迹 。 





Lance Putnam#llCharlie Roberts (媒体 艺术 和 技术 ) 


学 科 主 任 : Luca Peliti 教 授 ( (Kv1i 理 论 物 理 研 究 所 ) 和 JoAnn 
Kuchera-Morin 教 授 (媒体 艺术 和 技术 ) 


现在 ,我们 的 话题 从 原子 晶体 切换 到 更 小 的 空间 单个 氢 原 子 电 子 
云 。 人 们 对 氢 原 子 轨道 的 形状 有 很 多 了 解 ， 物 理学 家 可 以 轻而易举 地 
在 大 脑 中 描绘 出 它们 。 然 而 ， 当 两 个 或 者 更 多 随时 间 变 化 的 轨道 营 加 
后 产生 的 电子 云 将 很 复杂 而 且 很 难 通 过 个 别 公式 分 析 。 此 外 ， 数 学 公 
式 和 静态 图 片 无 法 捕 提 复杂 的 、 随 时 空 演 化 的 动态 特征 。 











我 们 的 这 项 工作 由 在 通过 电子 波 函数 的 交互 式 可 视 化 和 可 听 化 ， 
创建 “类 氧 ” 原 子 的 多 模式 体验 。 我 们 把 原子 轨道 模拟 成 随时 间 变 化 
的 Schr6dinger 方 程 的 解 ， 包 含 Coulomb 的 静电 力 法 所 描述 的 球状 静态 
势 。 在 这 个 模型 中 ， 原 子 核 和 电子 之 间 的 关系 类 似 于 装 满 液体 ( 电 
T) NB RFR) ， 其 区 别 在 于 液体 可 以 包含 很 多 不 同 的 静止 形 
状 ， 而 且 可 以 延伸 到 碗 外 面 。 为 了 计算 ， 单 轨道 的 时 间 不 变 结构 预先 
计算 好 并 存储 在 三 维 晶体 中 ， 然 后 ， 在 模拟 过 程 中 ， 它 们 分 别 独自 进 
化 ， 而 且 空 间 上 混合 在 一 起 。 我 们 对 一 些 预 设置 的 轨道 县 加 进行 编 
程 ， 观 察 如 光子 放射 和 吸收 的 动态 行为 特征 。 
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这 些 媒介 在 波 函 数 中 沿 着 不 同 的 流 运 动 。 通 过 这 种 方式 ， 我 们 可 以 同 
时 理解 云 的 全 局 和 局 部 结构 。 我 们 发 现 彩色 线条 在 映射 维度 数量 、 可 
视 化 复杂 性 、 计 算 高 效 性 之 间 提 供 了 一 种 合理 的 平衡 〈 见 图 17-8) 。 
彩色 线条 媒介 给 我 们 提供 了 3 种 色彩 的 内 部 维度 、4 种 方位 的 空间 维度 
以 及 可 以 用 于 映射 的 长 度 。 我 们 使 用 色彩 来 区 分 不 同 的 流 和 方位 类 型 
来 表示 方向 。 此 外 ， 线 条 的 亮度 和 长 度 不 同 ， 这 样 可 以 平滑 地 把 媒介 
从 展现 中 淡 入 或 淡出 。 








Al 17-8: 氢 原 子 的 光 放 射 配置 〈( 见 彩 图 138) 


我 们 还 想 使 用 声音 来 通知 特定 事件 类 型 一 一 比如 某 些 形状 类 型 的 
出 现 和 消散 一 一 只 在 云 内 出 现 。 为 了 做 到 这 点 ， 我 们 使 用 了 一 种 称 为 
扫描 合成 ( Csanned synthesis) 的 合成 技术 的 变 体 。 我 们 以 类 似 于 录 
音 带 的 读 取 磁 头 的 方式 扫描 媒介 ， 然 后 聆听 其 所 在 位 置 的 波 函数 的 振 
幅 。 通 过 改变 扫描 速率 ， 我 们 可 以 改变 声音 的 音调 。 音 调 低 的 用 于 显 
示 局 部 形状 变化 效果 最 好 。 而 音调 高 的 用 于 表示 全 局 特征 效果 最 好 。 
我 们 还 发 现 给 不 同类 型 的 媒介 分 配 不 同 的 音调 类 型 (对 八 度 音调 进行 
分 割 ) 很 有 效 ， 这 样 可 以 在 听力 上 互相 区 分 开 。 这 种 扫描 方法 可 以 成 
功 地 提醒 我 们 媒介 育 类 何 时 以 及 在 何 处 形成 奇异 点 或 吸引 域 ,但 是 关 
于 特定 形状 的 形成 的 通知 的 效果 不 太 好 。 更 全 面 系统 地 表示 系统 的 方 
法 不 是 增加 单一 方式 ， 而 是 采取 多 模式 方法 ， 使 得 视觉 上 可 以 显示 整 
体形 状 ， 听 觉 上 可 以 感知 局 部 结构 随 着 时 间 的 变化 。 




















实现 该 展现 的 一 个 意 想不到 的 结果 是 ， 波 函数 模式 从 单一 轨道 模 
式 转变 成 到 混合 模式 中 时 展现 出 来 的 复杂 性 和 丰富 性 ， 如 图 17-9 所 
示 。 出 现 的 组 成 模式 和 部 分 没有 明显 的 关系 ， 从 数学 方程 上 看 一 点 都 
不 明显 。 我 们 发 现 作 为 简单 且 众所周知 的 物理 机 制 的 波 的 干扰 ， 在 思 
考 创建 复杂 模式 和 新 兴 行 为 时 ， 可 以 作为 强大 的 概念 。 














图 17-9: 所 原子 的 高 阶 轨道 混合 〈 见 彩 图 139 ) 


纺织 所 原子 
Lance Putnam (媒体 艺术 和 技术 ) 


学 科 主 任 : Luca Peliti 教 授 ((Kv1i 理 论 物 理 研 究 所 ) 和 JoAnn 
Kuchera-Morin 教 授 (媒体 艺术 和 技术 ) 


在 这 个 项 目 中 ， 我 们 期 望 使 用 更 完整 的 包含 自 旋 因 子 的 物理 模型 
对 之 前 的 氢 原 子 项 目 进行 扩展 。 我 们 还 希望 从 原始 的 对 波 函 数 空间 的 
抽样 提升 到 更 高 的 空间 分 辨 率 。 我 们 决定 不 再 预先 计算 和 存储 轨道 
而 是 实时 计算 一 切 ， 这 样 我 们 将 能 够 得 到 空间 中 所 有 点 的 波 函 数 的 准 
确 值 。 从 这 个 意义 上 说 ， 波 函数 的 计算 表示 形式 从 晶体 值 变 成 了 位 置 
冰 数 。 这 种 新 的 方法 也 使 我 们 有 机 会 以 新 的 视角 来 观察 媒介 作为 通用 
目的 的 可 视 化 和 可 听 化 工具 时 的 效果 。 这 些 媒介 不 仅 能 够 显示 小 函数 
过 个 体 运动 产生 的 流 ， 而 且 能 够 表示 其 他 一 些 状态 ， 如 其 振荡 阶 
段 。 此 外 ， 媒 介 上 的 软件 程序 可 以 以 类 似 合奏 的 方式 来 创建 更 平滑 、 
更 紧密 连接 的 形状 。 














我 们 开始 通过 对 网 格 线条 上 的 媒介 进行 定位 ， 然 后 基于 底层 的 波 
函数 振幅 来 修改 方向 和 长 度 。 虽 然 这 种 方式 使 我 们 能 够 很 好 地 理解 全 
局 特征 ， 但 是 我 们 发 现 由 于 空间 造型 4 (Mir6 模 式 ) 在 空间 上 的 规则 定 
位 ， 导 致 在 视觉 上 看 起 来 相当 令 人 困扰 且 具 有 误导 性 。 为 了 避免 这 些 





不 好 的 效果 ， 我 们 尝试 在 一 个 立方 体 中 对 媒介 进行 随机 定位 。 这 种 方 
法 可 以 很 好 地 消除 之 前 的 干扰 性 ， 但 是 它 又 引出 了 更 严重 和 基础 的 问 
题 。 首 先 ， 我 们 发 现 难以 将 所 有 媒介 从 原来 各 目的 线条 形状 融合 为 一 
个 连贯 的 线条 。 其 次 ， 我 们 发 现 把 媒介 均匀 分 布 在 三 维 空间 中 并 不 能 

生成 自然 的 发 声 方法 。 虽 然 我 们 在 之 前 的 项 目 中 《〈 即 关于 氢 键 项 目 ) 
己 经 发 现 可 视 化 和 可 听 化 可 以 独立 使 用 而 互 不 影响 ， 但 是 听觉 的 可 上 听 
化 和 视觉 的 可 视 化 表现 的 基础 连通 性 对 于 理解 场景 是 非常 重要 的 。 














我 们 解决 这 些 连通 性 问题 的 方法 是 把 这 些 线性 媒介 组 成 环 状 ， 
过 弹 得 使 这 些 媒 介 相互 连接 。 这 种 方式 可 以 生成 一 条 弹性 带子 ， 它 保 
持 媒介 之 间 的 平滑 连接 ， 而 仍然 能 够 在 空间 中 自由 运动 ， 并 显示 被 衡 
量 的 域 的 本 地 属性 。 把 环 的 宽度 映射 为 概率 密度 ， 宽 带 的 大 幅 的 上 升 
代表 在 该 位 置 发 现 电 子 的 概率 很 高 ( 见 图 17-10〉，。 此 外 ， 环 在 用 于 显 
示 波 函数 的 状态 时 也 能 工作 良好 ， 波 函数 在 整个 空间 上 的 分 布 更 为 广 
泛 〈 见 图 17-11) 。 








Al 17-10: 上 自 旋 的 所 原子 的 轨道 之 间 的 相位 干扰 《〈 见 彩 图 140 ) 











Al 17-11: 上 自 旋 的 氧 原子 的 外 沈 混 合 ( 见 彩 图 141) 


平滑 的 环 可 以 为 可 听 化 生成 理想 的 外 形 来 扫描 媒介 ， 正 如 无 自 旋 
原子 那样 。 在 视觉 上 ， 环 状 为 形状 的 透明 性 和 连贯 性 以 及 全 局 和 局 部 
的 属性 描述 之 间 提 供 民 好 的 权衡 。 


电子 目 旋 的 连贯 旋 进 
Dennis Adderton 和 Lance Putnam (媒体 艺术 和 技术 ) , Jesse 
Berezovsky《〈 自 旋 电 子 学 和 量子 计算 中 心 ) 


学 科 主 任 : JoAnn Kuchera-Morin 教 授 〈 媒 体 艺 术 和 技术 ) 和 
David Awschalom 教 授 〈 自 旋 电 子 学 和 量子 计算 中 心 ) 











本 项 目的 目标 是 展示 一 个 电子 在 量子 点 中 旋转 时 的 连贯 的 旋 进 过 
程 或 者 旋转 过 程 中 的 变化 。 为 了 找 出 在 纳米 级 设备 上 衡量 量子 连贯 性 
的 最 合适 的 机 制 ， 我 们 参观 了 UCSB 物 理 系 的 自 旋 学 实验 室 ， 以 便 了 解 
目 旋 显微镜 学 。 这 是 一 个 光学 实验 室 ， 这 里 有 一 个 速度 非常 快 的 激光 
脉冲 射 加 半导体 量子 设备 。 脉 冲 的 偏振 作用 能 够 诱导 单个 电子 在 量子 
点 中 目 旋 生成 连贯 的 旋 进 。 后 续 的 脉冲 可 以 衡量 电子 在 量子 点 内 的 旋 
转 偏 振 ， 从 而 捕获 旋 进 过 程 图 。 通 过 这 种 测量 方式 ， 可 以 量化 设备 的 
量子 连贯 性 特征 衰减 时 间 。 量 子 态 的 非 连贯 性 标志 了 从 量子 态 到 经 典 
物理 态 的 跃迁 。 

















为 了 通过 可 听 化 来 展示 实验 现象 ， 我 们 把 速度 降低 了 100 万 倍 。 这 
使 我 们 能 够 听 到 电子 的 发 声 以 及 脉 神 激光 的 喻 喻 声 。 为 了 对 目 旋 进 现 
象 进行 可 视 化 ， 我 们 在 Bloch 球 体 上 绘制 了 相位 角 ， 这 对 于 物理 学 家 来 


说 是 标准 的 图 形 化 工具 。 我 们 根据 一 篇 论文 的 实验 中 的 一 个 简单 公式 
( (Brezovsky 2008) 生成 了 三 维 动态 图 ( 见 图 17-12) 。 





图 17-12: 多 角度 显示 上 自 旋 进 的 Bloch 球 体 〈 见 彩 图 142) 


虽然 初步 的 测试 激发 了 我 们 的 激情 ， 但 是 马上 就 发 现 了 该 模型 的 
一 个 过 于 简单 的 方面 ， 在 开始 的 数据 集中 这 一 点 还 不 明显 。 虽 然 在 视 
党 上 生成 的 是 有 趣 的 球形 模式 ， 但 是 其 时 间 组 件 呈 显著 的 正弦 振动 ， 
因此 产生 的 声音 很 快 就 开始 让 人 厌烦 。 显 然 ， 要 想 融 入 到 量子 世界 
中 ， 我 们 需要 一 个 更 复杂 的 系统 。 








为 了 发 挥 感官 作用 ， 我 们 需要 一 个 更 完整 的 自然 量子 力学 模型 ， 
而 不 是 实验 的 简化 模型 。 表 示 理 论 模型 需要 进行 翻译 解释 ， 使 用 听 筑 
和 视觉 进行 类 比 。 作 为 一 名 艺术 家 ， 需 要 先 构建 一 个 艺术 品 ， 这 样 可 





以 讨论 一 些 有 形 的 东西 。 艺 术 品 在 揭示 真理 上 成 为 一 门 哲 学 “ 武 絮 ” 
一 一 直接 和 数学 关联 的 真理 ， 并 进行 了 可 视 化 和 可 听 化 。 这 些 作 品 可 
以 作为 哲学 假设 的 基础 ， 美 丽 的 可 视 化 是 连接 到 可 以 创造 和 打破 对 称 
的 复杂 的 数学 系统 的 可 视 化 和 可 听 化 。 








结束 语 


在 AlloSphere 空 间 中 ， 可 视 化 转化 成 美丽 的 多 模式 虚拟 展现 、 转 
换 和 创造 ， 最 终生 成 一 个 独特 领域 的 演化 过 程 。 这 个 新 的 领域 融合 了 
艺术 和 科学 的 不 同 的 标准 和 指标 一 一 艺术 负责 推测 、 生 成 和 转换 ， 科 
学 负 员 模型 /理论 的 构建 和 验证 。 随 着 我 们 的 研究 的 进一步 推进 ， 产 生 
了 一 种 新 的 、“ 经 典 ” 的 思考 方式 ， 它 能 够 把 科学 和 艺术 结合 到 新 的 
环境 中 : 在 这 个 新 环境 中 ， 新 艺术 和 新 技术 的 产生 是 相辅相成 的 。 随 
着 这 个 新 兴 领 域 和 计算 驱动 的 媒介 的 发 展 ， 艺 术 家 、 科 学 家 和 工程 师 
之 间 的 差别 开始 消失 ， 我 们 意识 到 我 们 都 是 工程 是、 科学 家 和 艺术 家 
一 一 一 起 设计 、 分 析 和 创造 。 
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第 18 间 ”解剖 可 视 化 : 真正 的 黄金 标准 


Anders. Persson 








本 章 的 主题 对 于 致力 于 医学 信息 可 视 化 领域 的 人 们 而 言 格外 重 
要 。 新 兴 的 技术 正在 使 得 可 视 化 表现 和 交互 技术 成 为 可 能 。 可 视 化 技 
术 充 分 利用 了 人 类 视觉 到 心灵 间 的 高 带宽 ， 使 用 户 可 以 同时 观察 、 探 
索 、 了 解 并 验证 大 量 的 复杂 信息 。 




















今天 ， 临 床 诊断 和 医学 研究 的 一 个 显赫 特征 是 信息 量变 得 无 比 庞 
大 ， 特 别 是 图 像 形式 的 信息 。 需 要 医生 处 理 的 图 片 越 来 越 多 〈 数 百 或 
上 二 而 不 是 几 十 个 ) ， 而 且 古 越 来 越 复 林 、 维 度 越 来 越 高 的 信息 〈 癌 
量 或 张 量 值 ， 而 不 再 是 标量 值 ， 是 直接 和 解剖 面 对 应 的 立体 图 像 ， 而 
不 是 平面 图 像 )。 然 而 ， 目 前 通常 还 只 是 使 用 简单 的 二 维 设备 如 传统 
的 显示 右 来 一 张 一 张 地 检查 图 像 流 。 当 前 的 瓶 贷 已 经 不 再 是 数据 采 
集 ， 示 来 的 发 展 将 是 开发 合适 的 方法 来 处 理 和 分 析 人 信息， 并且 使 用 户 
可 以 理解 这 些 信息 。 其 中 最 重要 的 一 个 问题 是 工作 流 。 从 数据 采集 到 
临床 医生 收 到 诊断 信息 这 一 过 程 必 须 优 化 ， 而 且 新 的 方法 的 效果 必须 
是 可 验证 的 。 
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情况 下 ， 依 据 病 人 进行 效果 验证 存在 局 限 性 。 在 茶 些 情况 
病人 还 活着 ， 就 无 法 知道 收集 到 的 信息 是 否 准确 ; 缺失 了 真 


正 的 黄金 标准 。 解 训 成 像 有 可 能 可 以 解决 这 个 问题 。 


从 19 世 纪 中 叶 引 入 尸检 的 方法 以 来 ， 迄 今 为 止 一 直 没 有 发 生 过 重 
大 的 技术 变 单 。 然 而 ， 新 的 放射 成 像 方法 ， 如 多 层 电 脑 断 层 扫描 
( (MCT) 和 核磁 共振 成 像 (〈MI) ， 今 后 有 可 能 成 为 临床 和 法 医 病 理学 的 
主要 诊断 工具 。 鉴 于 对 新 的 成 像 技术 和 保健 措施 的 校 验 能 力 ， 解 训 可 
视 化 可 能 会 成 为 未 来 改进 人 体 健 康 的 重要 途径 。 





A 


Ab 


月 2 


M 


尸检 过 程 的 重要 性 在 于 其 死亡 原因 可 以 被 人 们 所 了 解 。 对 于 法 
医 ， 尸 检 可 以 提供 至 关 重 要 的 信息 ， 而 且 可 以 为 刑事 调查 提供 指导 。 
在 过 去 几 年 ， 尸 检 的 频率 不 断 下 降 ， 这 成 为 一 个 非常 严重 的 问题 。 


尸检 工作 流 中 一 个 最 近 新 增 的 功能 使 对 尸体 解剖 成 像 成 为 可 能 
一 一 以 3D 形 式 显示 ， 也 称 为 虚拟 尸检 ( Cvrtual autopsy, VA) 一 一 使 用 
从 尸体 扫描 的 MDCT 或 MRI 数据 ， 而 且 采 用 的 是 直接 立体 演 染 ( ODR) 的 三 
维 技 术 。 虚 拟 尸 检 的 发 展 基础 在 于 现代 影像 学 可 以 生成 大 的 、 可 精确 
到 毫米 以 下 的 高 质量 的 数据 集 。 这 些 三 维 数据 集 的 交互 可 视 化 可 以 促 
进 有 价值 的 认 知 ， 而 且 促 进 无 损伤 性 的 诊断 过 程 。 但 是 ， 对 数据 集 进 
行 高 效 的 处 理 和 分 析 也 会 带 来 很 多 问题 。 举 个 例子 ， 在 解剖 尸体 的 CT 
成 像 中 ， 由 于 不 局 限于 每 个 病人 所 能 承受 的 辐射 ， 数 据 集 可 以 生成 非 




















常 高 清 的 图 像 ， 当 前 的 资料 检索 和 交互 可 视 化 系统 难以 处 理 这 些 图 
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一 些 研究 证 明了 虚拟 解剖 在 法 医 调查 中 的 巨 大 潜力 。 本 章 将 探讨 
虚拟 解剖 作用 不 断 增加 的 一 些 原因 。 


对 法 医 工 作 的 影响 


在 检查 尸体 时 需要 评估 的 主要 问题 是 死亡 的 原因 和 方式 、 遭 受 的 
伤害 的 严重 程度 以 及 基于 这 些 实现 法 医 重 建 的 可 能 性 。 法 医 尸 检 的 结 
果 文 件 主要 是 基于 几 个 世纪 以 来 一 直 使 用 的 尸检 技术 和 协议 。 尸 检 的 
主要 工具 是 手术 刀 ， 语 言 描述 和 照片 。 这 种 方法 的 主要 缺点 在 于 文档 
记录 过 于 随意 、 主 观 和 对 观察 者 过 于 依赖 。 没 有 记录 的 任何 发 现 将 随 
着 尸体 被 送 到 火 莱 场 而 被 无 可 挽回 地 销毁 。 当 代 层 析 ( (coss- 
sectional) 成 像 技 术 可 以 克服 这 些 缺 点 ， 因 为 它们 提供 了 真实 维度 的 
发 现 结果 的 数据 集 ， 而 且 可 以 长 期 存储 《〈 见 图 18-1 和 图 18-2) 。 数 字 
化 采集 的 数据 可 以 在 任何 时 候 使 用 ， 也 可 以 发 送 给 其 他 专家 咨询 意 


见 。 

















Al 18-1: 通过 计算 断层 扫描 ， 很 容易 查 出 身体 中 的 金属 物体 。 在 这 
起 谋杀 案 中 ， 有 刀 罕 过 脸 ， 但 是 断层 扫描 证 实 这 并 不 是 死亡 原因 《〈 见 





彩 图 143 ) 





图 18-2: 这 个 图 像 说 明了 男 一 个 案件 中 的 死亡 原因 ， 受 害 人 被 菜刀 
刺 穿 心脏 ( 见 彩 图 144) 


有 些 传统 的 尸检 方式 难以 发 现 的 信息 ， 通 过 全 身 计算 断层 扫描 可 
以 很 容易 发 现 ， 如 体内 的 空气 分 布 一 一 例如 气胸 、 心 包 积 气 、 血 流 
《空气 栓塞 ) 以 及 伤口 通道， 如 图 18-3 所 示 。 计 算 断 层 扫描 对 于 查找 
异物 如 金属 碎片 和 子弹 是 非常 有 用 的 ， 这 对 于 法 医 病理 学 家 也 是 至 关 
重要 的 〈 见 图 18-4) 。 














图 18-3: 获取 到 的 计算 断层 扫描 数据 可 以 通过 不 同 的 参数 设置 进行 
交互 可 视 化 :在 这 个 例子 中 ,软组织 在 体内 左 侧 ， 空 气 分 布 在 体内 右 
侧 《 见 彩 图 145) 











图 18-4: 通过 尸检 计算 断层 扫描 可 以 很 容易 对 短 枪 中 的 小 雁 卢 进行 
可 视 化 。 在 传统 的 尸检 中 ， 这 些 碎 片 很 难 甚 至 不 可 能 被 发 现 〈 见 彩 图 
146) 


虚拟 尸检 流程 


瑞典 Linkoing 大 学 医学 图 像 科 学 与 可 视 化 中 心 ( (CIV) 和 瑞典 国家 
法 医学 委员 会 协作 开发 了 虚拟 尸检 流程 ， 它 已 是 用 于 法 医 工 作 的 常规 
程序 。 从 2003 年 以 来 就 一 直 使 用 该 方法 ， 而 且 到 目前 为 止 已 经 被 用 于 
300 个 案例 中 《主要 是 谋杀 ) 。 虚 拟 尸 检 的 使 用 经 验 表 明 全 方位 、 高 清 
地 数字 视频 录像 机 等 新 技术 在 刑事 调查 和 对 病人 的 诊断 中 有 着 非常 重 
要 的 作用 。 我 们 的 工作 重点 是 尸检 多 探头 计算 断层 扫描 ( MCT) 的 全 部 
工作 流 ， 而 且 关注 于 开发 新 的 可 以 对 全 身 数据 集 进 行 可 视 化 的 软件 ， 
而 之 前 只 能 通过 一 些 独立 的 模块 查看 并 且 只 有 很 有 限 的 交互 性 〈 见 图 
18-5 到 图 18-7) 。 























图 18-5: 在 传统 的 尸检 完成 后 ， 就 不 可 能 重新 检查 了 。 当 尸体 被 送 
到 火 研 场 后 ， 没 有 记录 的 结 末 束 无 可 挽回 地 被 销毁 了 《〈 见 彩 几 147 ) 








图 18-6: 把 计算 断层 扫描 或 /和 核磁 共振 添加 到 管道 4 Cppe line) 
中 ， 可 以 重 做 虚拟 尸检 。 任 何 时 候 有 新 的 疑问 时 ， 都 可 以 参考 数字 化 
存储 的 数据 ， 而 且 可 以 把 这 些 数据 发 送 给 专家 咨询 意见 〈 见 彩 图 148 ) 








图 18-7: 犯罪 现场 调查 人 员 和 和 警察 在 把 尸体 保存 在 冷藏 室 方面 存在 





矛 盾 。 警 察 希望 尽 可 能 快 地 完成 尸检 。 而 犯罪 调查 现场 人 员 和 希望 在 己 

检 完 成 之 前 结束 犯罪 现场 调查 。 成 体 成 像 解 决 了 这 个 问题 。 对 尸体 计 

算 断 层 扫描 检查 的 初级 报告 使 得 有 可 能 把 尸体 保存 在 冷 减 室 中 ( 见 彩 
图 149) 








数据 采集 


在 瑞典 Linkoing 大 学 医学 图 像 科学 与 可 视 化 中 心 对 传统 的 物理 己 
检 进 行 扩展 ， 为 虚拟 尸检 添加 了 计算 断层 扫描 和 磁 共 振 成 像 。 在 绝 大 
多 数 情 况 下 ， 法 医 来 到 案 发 现场 ， 监 督 对 受害 人 尸体 的 处 理 ， 尸 体 在 
运送 到 法 医 部 门 前 ， 被 放置 到 一 个 密封 的 尸体 袋子 中 并 做 入 库 处 理 。 
第 二 天 早晨 ， 通 过 前 沿 技术 SOMATOM 定 义 内 光 扫 描 器 ， 在 瑞典 Linkoing 
大 学 医学 图 像 科 学 与 可 视 化 中 心 执 行 全 身 双 源 计 算 断 层 扫描 (4〈DCT) 。 
目前 ， 同 时 使 用 蛙 能 模式 和 双 能 模式 进行 虚拟 尸检 的 案例 ， 如 图 18-8a 
和 b 所 示 。 在 选择 的 案例 中 ， 执 行 的 是 磁 共 振 成 像 检 查 〔 使 用 葆 兰 飞 利 
浦 医 疗 系统 的 Achieva 1. 5T 扫 描 器 ) 。 所 有 孩子 都 例 行 执行 磁 共 振 成 
像 检 查 ， 因 为 比 起 DSCT， 如 图 18-9 所 示 ， 它 提供 超 强 的 大 脑 可 视 化 。 
在 整个 虚拟 尸检 过 程 中 ， 尸 体 一 直 是 在 密封 的 尸体 袋子 中 ， 这 样 可 以 
确保 司法 鉴定 有 价值 的 技术 证 据 的 安全 性 ， 如 纤维 和 体液 ， 并 避免 污 


染 。 














Al 18-8: a) MARMER AEn BE PERM ETT Se Tae 
b) 核磁 共振 扫描 器 。 在 瑞典 Linkoing 大 学 医学 图 像 科学 与 可 视 化 中 
心 ， 这 两 个 扫描 器 都 是 用 于 虚拟 尸检 ( 见 彩 图 150) 








图 18-9: 被 子弹 打 中 的 小 孩 的 双 能 计算 断层 扫描 。 注 意 对 子弹 和 子 
弹 轨迹 的 出 色 的 可 视 化 。 易 于 在 法 寿 上 展示 《〈 见 彩 图 151) 





计算 断层 扫描 : 使 用 双 能 计算 断层 扫描 








拥有 以 不 同 能 量 同时 运行 两 束 x 里 线 的 双 能 计算 断层 扫描 (Dal 
energy CT, DECT) 可 以 获取 两 个 数据 集 ， 显 示 不 同 的 衰减 层次 。 双 能 计 
算 断 层 扫描 可 以 得 到 计算 断层 扫描 中 的 关于 基础 化 学 成 分 的 额外 信 
恩 。 使 用 两 种 不 同 的 平均 照片 能 确定 康 普 顿 散射 (〈Cmpton 











scattering) ， 它 分 别 对 应 两 种 管 电压 (80kV 和 140kV) 。 换 句 话 
说 ，x 射 线 吸 收 依赖 能 量 。 例 如 ， 使 用 8OkV 对 物理 进行 扫描 与 使 用 
140kV 进 行 扫描 会 得 到 不 同 的 衰减 结果 。 该 物理 现象 可 以 用 于 区 分 包含 
相似 原子 数 的 物体 ， 如 区 分 钙 和 碘 。 还 可 以 使 用 该 技术 来 更 好 地 对 己 
体 血 管 中 的 血液 凝 块 进行 可 视 化 ， 并 有 可 能 发 现 软组织 出 血 。 在 衰减 
中 ， 如 结果 图 所 示 的 对 特定 材料 的 区 别 有 助 于 对 不 同 的 组 织 类 型 进行 
分 类 ， 如 血液 、 软 组 织 肌 腿 和 软骨 “〈 见 图 18-10)。 





图 18-10: HX RE ch eT SS WUER AE o a J K E a 
以 不 使 用 静脉 注射 造影 剂 进行 可 视 化 。 对 腕 骨 之 间 的 韧带 进行 可 视 化 
( 见 彩 图 152) 





双 能 计算 断层 扫描 4《〈DCT) 有 成 为 未 来 重要 医疗 诊断 工具 的 潜力 。 
但 是 ， 需 要 进行 进一步 的 深入 研究 来 探索 这 门 新 技术 。 虚 拟 尸 检 有 助 


这 项 研究 。 





ay 





核磁 共振 成 像 : 使 用 合成 核磁 共振 成 像 





在 冷却 的 尸体 上 生成 高 对 比 度 的 核磁 共振 成 像 很 难 一 一 体温 会 影 
啊 所 有 有 机 组 织 的 核磁 共振 松弛 次 数 ， 因 此 在 临床 医学 上 制定 的 协议 
需要 调整 为 在 任何 给 定 温度 下 都 能 生成 最 佳 的 图 像 。 这 个 问题 可 以 通 

过 计量 组 织 特 有 的 绝对 磁 共 振 参 数 T1、T2 和 质子 密度 等 解决 。 


由 于 临床 上 应 用 的 核磁 共振 成 像 扫描 仪 难以 解决 以 上 问题 ， 瑞 典 
Linkoing 大 学 医学 影像 科学 与 可 视 化 中 心 发 明了 一 种 新 的 方法 ， 即 核 
共振 成 像 ( (snthetic MRI) 。 在 这 种 方法 中 ，3 个 绝对 参数 被 翻译 成 
了 普通 的 核磁 共振 对 比 图 片 〈 见 图 18-11 和 图 18-12) 。 借 助 一 种 色 
标 ， 这 样 每 个 组 织 可 以 获取 依赖 于 核磁 共振 组 织 参 数 并 且 不 依赖 于 体 
温 的 颜色 成 分 。 因 为 核磁 共振 参数 是 绝对 的 ， 所 以 一 种 颜色 转换 将 与 
一 个 颜色 -组 织 之 间 的 映射 关系 相对 应 。 这 种 方式 对 于 解剖 成 像 格外 有 














意义 ， 因 为 图 片 对 比 度 可 能 会 随 着 温度 的 变化 而 产生 非常 大 区 别 ， 如 
图 18-12 所 示 。 








图 18-11: 一 个 活着 的 病人 的 合成 核磁 共振 成 像 例 子 ， 第 一 行 是 传统 
的 图 像 ， 第 二 行 是 基于 同一 个 数据 集 生成 的 合成 图 像 











图 18-12: 全 身 合 成 核磁 共振 扫描 。 对 比 度 可 以 人 工 合成 ， 软 组 织 可 





以 进行 分 割 ， 甚 至 温度 也 可 以 基于 核磁 共振 参数 确定 








尸体 检查 并 不 需要 考虑 运动 因素 ， 可 以 通过 长 时 间 的 扫描 来 获取 
高 清晰 度 图 像 。 比 如 ， 图 18-13 显 示 了 1. 2mm 同 性 分 辩 率 的 头 部 中 弹 伤 





口 。 因 为 磁 共 振 成 像 基于 绝对 值 ， 因 此 可 以 在 计算 机 断层 扫描 后 借助 
处 理 软件 泻 染 三 维 图 像 ， 最 终生 成 了 如 图 18-13 和 图 18-14 所 示 的 立体 





图 18-13: 使 用 高 分 辨 紊 的 各 疝 同性 方案 为 一 个 子弹 伤口 生成 的 尸检 
合成 磁 共 振 成 像 。 左 边 图 像 中 的 红色 代表 血液 〈 见 彩 图 153) 





Al 18-14: Wann, NAR GZH RAE 


19. 8m) 和 病灶 (该 切 制图 中 是 1. 9m1) 的 自动 分 割 〈 见 彩 图 154) 
(1) 康 普 顿 散射 ， 也 称 康 普 顿 效应 ， 在 物理 学 上 ， 它 是 指 当 x 射线 或 作 
马 财 线 的 光子 跟 物 质 相 互 作 用 ， 因 失去 能 量 而 导致 波长 变 长 的 现象 。 
由 于 它 是 高 能 量 x 射 线 与 生物 中 的 原子 核 间 最 有 可 能 发 生 的 相互 作用 ， 
因此 亦 被 应 用 于 放射 疗法 。 











可 视 化 : 图 像 分 析 


在 物理 尸体 解剖 的 准备 过 程 中 ， 病 理学 家 和 放射 学 家 举行 了 同步 
进行 的 一 场 协作 式 的 数字 视频 会 议 。 他 们 可 以 快速 地 对 整个 尸体 进行 
清晰 的 调查 ， 定 位 骨折 和 气泡。 尸体 全 身 处 理 的 整个 过 程 文 持 对 异物 
如 金属 碎 毛 或 子弹 的 快速 定位 。 另 一 个 重要 的 方面 是 数据 分 辨 率 很 
高 ， 在 无 颖 可 视 化 中 可 以 抽取 细节 信息 《如 牙科 ) 详情 用 于 鉴别 〈 见 
图 18-15) 。 这 种 方式 可 以 为 警方 的 初期 调查 提供 必要 信息 。 在 完成 扫 
描 后 ， 法 医 离开 瑞典 Linkoing 大 学 医学 影像 科学 与 可 视 化 中 心 ， 开 始 
传统 的 尸检 。 协 作 的 数字 视频 录像 会 议 中 获取 的 数据 被 转移 到 法 医 研 
完 所 供 他 们 使 用 ， 在 后 期 如 果 需 要 更 多 的 信息 ， 可 以 再 联系 放射 科 医 

















图 18-15: 有 了 三 维 立 体 泻 染 ， 可 以 交互 式 地 改变 背景 ， 这 样 就 可 以 
对 尸体 从 皮肤 到 骨骼 进行 无 颖 可 视 化 〈( 见 彩 图 155) 


客观 记录 





虚拟 尸检 为 尸检 过 程 增 加 的 一 个 重要 的 价值 是 存储 了 捕获 到 的 双 
源 计算 断层 扫描 数据 ， 这 使 得 可 以 对 尸检 过 程 进行 迭代 。 通 常情 况 
下 ， 在 物理 尸检 期 间 的 发 现 可 能 会 引出 新 的 问题 ， 而 虚拟 尸检 可 以 回 
答 这 个 问题 。 病 理学 家 和 犯罪 调查 人 员 还 可 以 在 调查 期 间 的 任意 时 刻 
对 尸体 进行 重新 检查 以 查找 其 他 信息 ， 如 图 18-16 所 示 。 此 外 ， 在 犯罪 
现场 调查 中 ， 新 的 发 现 可 能 依赖 一 些 其 他 假设 ， 这 些 假设 可 以 通过 尸 
体 成 像 进行 确认 。 








图 18-16: 对 心脏 和 动脉 的 双 源 计算 断层 扫描 。 比 起 传统 的 单 源 成 像 
(红色 圆圈 所 示 ) ， 双 源 计算 断层 扫描 可 以 对 更 模糊 的 组 成 部 分 进行 
可 视 化 ( 见 彩 图 156) 





目前 ， 虚 拟 尸 检 是 对 尸检 过 程 的 补充 。 然 而 ， 应 该 注意 的 是 ， 将 
其 引入 工作 流 的 代价 是 最 小 的 ， 因 为 和 物理 尸检 相 比 ， 双 源 计 算 断 层 
扫描 和 可 视 化 需要 的 时 间 是 短暂 的 ， 而 且 它 使 得 尸检 更 高 效 。 病 理学 
家 在 开始 尸检 前 ， 可 以 提前 对 案件 的 背景 知识 有 所 了 解 。 在 整个 虚拟 
尸检 过 程 中 ， 尸 体 一 直 在 密封 的 尸 袋 中 ， 这 样 可 以 确保 司法 鉴定 得 到 
的 技术 证 据 的 安全 性 ， 如 纤维 和 体液 ， 这 对 于 法 院 的 案件 的 判决 非常 
重要 。 


虚拟 尸检 的 优势 和 不 足 


首先 ， 我 们 来 了 解 一 下 和 传统 的 尸检 技术 相 比 ， 虚 拟 尸 检 的 优 
势 。 


节约 时 间 。 虚 拟 尸 检 作 为 标准 尸检 的 补充 ， 能 够 对 整个 尸体 进行 
全 方位 、 广 泛 、 系 。 统 的 研究 ， 而 传统 尸检 要 做 到 这 一 点 通常 很 难 而 
且 时 间 代 价 很 高 ;比如 ， 对 整体 骨骼 结构 的 检查 或 者 查找 体内 存在 的 
气泡 〈 见 图 18-3 和 图 18-4) 。 


。 没有 创伤 。 传 统 的 尸检 一 旦 完成 ， 整 个 尸体 就 无 法 重新 组 合成 
原始 状态 ， 这 导致 其 他 法 医 病 理学 家 无 法 对 该 尸体 重新 进行 分 析 《〈 见 
图 18-5、 图 18-6 和 图 18-7) 。 





”家 放 成 员 可 能 会 出 于 军 教 信仰 如 么 止 计 污 尸体 而 拒绝 传统 的 万 


。 在 刑事 案件 中 ， 尸检 协议 和 照片 作为 证 据 ， 经 常会 让 陪审 员 感 
觉 难以 理解 。 虚 拟 尸 检 会 清晰 得 多 《〈 见 图 18-4 和 图 18-9) 。 








对 虚拟 尸检 的 数据 保存 基本 不 存在 问题 ， 而 传统 的 尸检 记录 如 组 
织 切片 通常 难以 长 。 期 贮存 〈 见 图 18-16) 。 


。 对 于 可 能 对 人 们 构成 越 来 越 大 威胁 的 全 球 性 流感 如 禽 流感 ( 禽 
流感 A) 和 HIN1 病 毒 ， 取 出 受害 者 的 内 脏 会 让 验尸 官 、 病 理学 家 、[ 括 学 
RS 着 非常 大 的 健康 风险 。 有 了 虚拟 尸检 ， 这 些 风 险 都 可 以 降 至 最 
lee 


然而 ， 虚 拟 解 训 也 包含 一 些 缺 点 : 


对 于 多 探头 计算 断层 扫描 ， 软 组 织 区 分 度 很 低 。 能 量 分 辨 的 计算 
断层 扫描 (DCT) 有 可 能 解决 这 个 问题 ( 见 图 18-10) 。 





对 生成 的 大 量 数据 进行 分 析 是 个 问题 ， 但 是 更 好 、 更 快 地 后 处 理 


程序 应 该 能 够 解决 。 这 个 问题 。 


核磁 共振 成 像 是 很 费时 的 调查 方式 ， 而 且 对 于 冷却 的 尸体 不 是 最 
佳 方式 。 合 成 核磁 。 共振 成 像 是 一 个 很 有 前 景 的 备 选 方式 〈 见 图 18- 
14) 。 


使 用 多 探头 计算 断层 扫描 成 像 和 核磁 共振 成 像 进行 尸检 的 方式 无 
法 为 尸体 记录 任何 。 颜色 信息 。 可 以 通过 新 的 三 维 立 体 泻 染 和 尸体 表 
面 扫描 技术 来 解决 这 个 问题 〈 见 图 18-15) 。 


不 存在 宏观 形态 (没有 组 织 学 和 化 学 ) 。 使 用 多 探头 计算 断层 扫 
描 的 活 组 织 检查 或 。 核磁 共振 光谱 ， 可 以 在 一 定 程 度 上 解决 这 个 问题 
( 见 图 18-16) 。 


难以 对 循环 和 可 能 的 流血 点 进行 可 视 化 ， 虽 然 通过 对 尸体 血管 摄 
影 得 到 了 可 喜 的 成 。 果 。 众 所 周知 ， 对 尸体 的 计算 断层 扫描 摄影 是 从 
虚拟 尸检 中 获取 更 多 信息 的 一 种 可 行 方式 ， 如 图 18-17 所 示 。 











尸体 散发 的 气体 和 其 他 气体 〈 小 肠 气 、 伤 口 RERA) 难以 区 分 
开 。 因 此 ， 在 死 后 。 尽快 进行 尸体 成 像 检查 是 很 重要 的 〈 见 图 18- 
18) 


虚拟 尸检 的 未 来 


多 探头 计算 断层 扫描 和 磁 共 振 成 像 都 可 以 用 于 尸体 成 像 。 原 则 
上 ， 很 容易 通过 多 探头 计算 断层 扫描 对 骨骼 、 气 体 和 金属 进行 可 视 
化 。 但 是 ， 重 要 的 是 ， 不 仅 要 注意 这 些 技 术 的 能 力 ， 还 应 该 注意 它们 
的 局 限 性 。 











将 来 的 可 视 化 研究 必须 包含 实现 虚拟 解剖 工作 站 的 整体 目标 ， 它 
包括 了 前 治 的 虚拟 尸检 技术 需要 的 所 有 方面 。 需 要 开发 提高 虚拟 尸检 
过 程 质量 和 效率 的 可 视 化 工具 。 需 要 专注 于 新 的 泻 染 与 分 类 技术 的 研 
完 和 开发 工作 ， 以 提高 这 些 技术 的 可 用 性 ， 并 专门 解决 法 医 问题 。 马 
一 个 重要 的 目标 是 为 主要 的 法 医 案 件 分 类 建立 专门 的 备 筷 录 。 








图 18-17: FES AMEN AEE OCR Ra. Be eat 
双 能 计算 断层 扫描 获取 到 的 〈 见 彩 图 157) 








图 18-18: 对 于 传统 的 尸体 解剖 难以 检查 尸体 上 不 同类 型 的 气体 
( 见 彩 图 158) 


数据 分 析 研 究 包括 实现 计算 机 辅助 诊断 的 工具 ， 这 些 工 具 一 旦 应 
用 于 尸体 数据 ， 将 有 助 于 查找 和 特征 化 相关 的 法 医 调查 结果 。 这 些 工 
具 还 可 以 提供 死者 的 相关 信息 ， 如 身高 、 体 重 、 性 别 、 重 大 伤害 、 异 
物 (如 子弹 ) ， 以 及 自动 初步 生成 的 可 能 的 死因 、 书 面 虚 拟 尸 检 备 起 
录 。 


成 功 解决 这 些 问 题 之 后 ， 可 以 对 虚拟 尸检 的 全 过 程 都 有 涉及 的 技 
术 进 行 改进 ， 推 动 整 个 工作 流 的 自动 化 。 这 将 使 得 在 合理 的 时 间 内 可 
以 完成 大 量 虚拟 尸检 。 这 对 于 处 理 一 些 出 现 大 量 伤亡 人 员 的 灾难 事件 








非常 有 用 ， 如 2004 年 的 亚洲 海 吓 ， 当 时 没有 执行 任何 尸检 。 由 于 恐怖 
分 子 时 刻 都 在 提高 他 们 的 技术 ， 如 果 法 医 病理 学 家 不 能 够 利用 新 兴 技 
术 来 尽 可 能 地 从 受害 者 身上 收集 更 多 信息 ， 那 将 是 不 可 想象 的 〈 见 图 
18-19) 。 如 果 处 在 一 个 没有 人 真正 感觉 安全 的 时 代 ， 我 们 就 不 应 该 只 
着眼 于 预防 灾难 ， 还 应 该 为 灾难 的 发 生 做 好 充分 的 准备 ， 当 灾难 发 生 
时 可 以 及 时 处 理 。 











为 了 真正 进入 数字 尸检 的 新 时 代 ， 各 种 力量 必须 通力 协作 。 医 学 
专业 人 士 和 执法 权威 人 士 必须 确定 扫描 和 存储 数据 的 标准 草案 。 世 界 
各 地 的 法 律 制度 必须 确定 成 像 证 据 在 分 辨 死亡 原因 和 方式 时 的 可 接受 
性 。 此 外 ， 还 需要 对 新 领域 的 专家 进行 培训 ， 如 尸体 放射 学 。 放 财 科 
医生 通常 受到 的 培训 是 解释 病人 的 图 像 ， 但 是 死者 和 病人 人 不同， 严重 
创伤 或 者 解剖 分 解 的 效果 可 以 取代 器 官 。 理 解 这 些 差 异 ， 需 要 知识 和 
专长 ， 而 这 些 知识 目前 尚未 普及 。 

















图 18-19: 对 被 烧毁 的 尸体 计算 断层 扫描 。 体 内 的 金属 片 使 得 核磁 共 





振 成 像 无 法 使 用 。 在 执行 计算 断层 扫描 之 前 ， 没 有 任何 谋杀 嫌疑 ， 但 
是 某 些 无 法 解释 的 骨折 给 调查 员 指明 了 方向 一 一 谋杀 CL 1159) 


创伤 性 的 尸体 解剖 至 少 在 几 年 之 内 还 将 普通 存在 。 但 是 ， 在 茶 些 
情况 下 ， 我 们 可 能 发 现 传统 的 尸体 解剖 可 以 被 非 创伤 性 的 虚拟 尸检 取 


代 ， 后 者 只 在 必要 的 时 候 执行 微 创 性 的 、 图 像 引导 的 组 织 抽 样 。 和 传 
统 的 尸体 解剖 相 比 ， 虚 拟 尸 检 有 可 能 获得 较 高 的 接受 度 ， 使 得 在 法 医 
和 传统 医学 中 持续 保持 高 水 平 的 质量 控制 成 为 可 能 。 


结束 语 


虚拟 尸检 有 是 尸检 流程 中 新 增加 的 一 个 处 理 过 程 ， 它 可 以 提高 传统 
尸检 技术 ， 从 而 能 够 得 到 更 为 可 靠 的 结 采 。 在 茶 些 情况 下 ， 虚 拟 尸 检 
能 够 取代 普通 的 尸体 解放 。 然 而 ， 关 于 尸体 放射 学 独 有 的 研究 必须 能 
够 识别 出 应 用 这 种 搁 术 时 最 为 受益 的 案例 ， 并 且 要 验证 新 的 流程 。 显 
然 ， 新 的 尸检 方法 的 引入 可 能 会 对 法 医学 、 司 法 系统 、 和 警察 和 普通 医 








药学 造成 重要 影响 。 
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第 19 章 ”动画 可 视 化 : Plas ARS 
Danyel Fisher 


动画 是 否 有 助 于 创建 更 丰富 、 更 生动 和 更 易于 理解 的 可 视 化 ， 或 
者 只 是 让 人 更 为 困惑 ? 随 着 Java、Flash、Silverlight 和 JavaScript 
等 在 Web 上 的 广泛 使 用 ， 使 得 动画 式 的 具有 交互 功能 的 可 视 化 的 发 布 愈 
加 容易 。 很 多 可 视 化 人 员 开 始 思考 如 何在 他 们 的 可 视 化 中 引入 动画 功 
能 ， 从 而 让 他 们 的 可 视 化 变 得 更 有 了 吸 引力。 如 何 使 静态 可 视 化 更 为 有 
效 方面 有 很 多 好 的 指南 ， 很 多 应 用 也 可 以 很 好 地 支持 交互 。 但 是 ， 动 
画 可 视 化 仍然 是 一 个 新 领域 ， 对 于 如 何 评价 一 部 动画 可 视 化 作品 还 没 
有 达成 基本 的 共识 。 














从 直觉 角度 来 看 ， 动 画 应 该 足够 清晰 : 如 果 一 张 二 维 图 像 的 效果 
己 经 很 不 错 ， 那 么 一 张 能 动 的 图 像 的 效果 应 该 只 会 更 好 。 运 动 ， 我 们 
都 很 熟悉 : 我 们 早已 习惯 于 现实 世界 中 的 各 种 运动 ， 也 习惯 于 看 着 事 
物 平 滑 地 运动 。 在 我 们 周围 ， 事 物 在 以 我 们 切实 理解 的 方式 运动 、 生 
Ke. PAR 














在 可 视 化 中 ， 动 画 能 够 显示 中 间 的 步骤 和 转换 过 程 ， 也 能 显示 数 
据 是 如 何 随 着 时 间 的 变化 而 收集 起 来 的 ， 这 可 能 有 助 于 观察 者 深入 理 
解 东 个 观点 背后 的 馆 辑 。 移 动 的 图 片 可 能 提供 的 是 一 种 轿 新 的 视角 ， 





可 能 是 更 能 吸引 用 户 从 而 促使 用 户 更 深入 地 观察 数据 。 动 画 还 可 以 
使 两 张 视 图 之 间 的 变化 更 平 消 ， 甚 至 在 不 存在 平滑 数据 变化 的 临时 组 
件 的 情况 下 也 可 能 做 到 这 一 点 。 





作为 例子 ， 我 们 一 起 了 解 一 下 Jonathan Harris 和 Sep Kamvar 的 
“We Feel Fine” 的 动画 可 视 化 ( (htp: //wefeelfine. org) 。 在 这 个 
可 视 化 中 ， 提 到 情感 的 博文 被 显示 成 气泡 。 在 不 同 的 视图 内 ， 气 泡 被 

组 织 成 直方 图 和 其 他 模式 。 举 个 例子 ， 一 个 屏幕 显示 男性 和 女性 的 博 
文 的 相对 分 布 ， 而 另 一 个 屏幕 显示 博文 中 流露 的 情绪 的 相对 分 布 。 虽 
气泡 在 屏幕 上 自由 移动 ， 但 是 在 屏幕 上 的 气泡 的 数量 一 直 是 恒定 
的 。 这 种 恒定 性 有 助 于 强化 样本 以 不 同方 式 组 织 的 理念 。 动 画 还 可 以 
用 于 唤起 情感 : 气泡 的 能 量 值 不 同 则 运动 也 不 同 ， 表 示 “ 幸 福 ” 的 气 

泡 的 运动 方式 和 表示 “悲伤 ”的 气泡 的 运动 方式 是 不 一 样 的 。 














但 是 ， 并 非 所 有 的 动画 都 是 成 功 的 。 有 太 多 的 应 用 是 对 
PowerPoint 的 动画 的 滥用 ， 数 据点 在 屏幕 上 慢 无 目的 的 到 处 乱 飞 ;各 
种 组 件 只 是 在 屏幕 上 有 曝 无 意义 的 空间 中 横扫 、 扩 展 和 旋转 ， 这 样 通 
只 是 导致 一 片 混乱 。 








我 已 经 多 次 创建 过 动态 可 视 化 。 在 2000 年 ， 我 和 几 个 研究 生 一 起 
创建 了 GnuTellaVision， 它 是 对 不 断 增 长 的 Gnutella 对 等 网 络 的 可 视 
化 。 从 那 以 后 ， 我 就 一 直 从 事 采 用 了 动画 可 视 化 的 很 多 项 目 : 比如 在 
一 个 应 用 了 动画 散 点 图 的 项 目 中 ， 以 观察 员 的 身份 密切 关注 DynaVis 项 





目 ， 关 注 不 同 可 视 化 之 间 的 转换 效果 。 在 本 章 ， 我 将 交流 一 些 经 验 并 
尝试 给 出 动画 可 视 化 的 一 些 基本 原则 。 


如 果 使 用 得 当 ， 动 画 将 是 一 种 非常 强大 的 技术 ,但 当 使 用 不 当 
时 ， 其 效果 也 会 非常 差 。 有 些 动画 虽然 提高 了 可 视 化 的 视觉 吸引 力 ， 
但 是 可 能 复杂 化 了 对 数据 集 的 探索 ， 其 他 类 型 的 可 视 化 对 于 探索 可 能 
更 为 合适 。 本 章 试 着 建立 一 个 有 效 的 动画 可 视 化 的 设计 框架 。 我 们 首 
先 一 起 了 解 一 些 背景 材料 ， 然 后 探讨 最 知名 的 动画 可 视 化 之 一 一 一 
Hans Rosling 的 GapMinder。 我 参与 过 一 个 类 似 于 GapMinder 的 探索 动 
画 散 点 图 的 项 目 ， 它 可 以 作为 讨论 动画 可 视 化 的 成 功 和 失败 之 处 的 一 
个 不 错 的 开始 。 正 如 我 们 将 看 到 的 ， 成 功 的 动画 可 以 展示 多 种 转换 类 
型 。DynaVis 项 目 会 为 我 们 展示 其 中 一 些 转型 和 转换 是 如 何 实现 的 。 在 
本 章 的 最 后 将 可 视 化 的 一 些 设计 原则 作为 结尾 。 




















动画 原则 





本 质 上 来 看 ， 任 何 动画 都 是 同 观 众 展示 一 系列 快速 、 连 续 的 图 
像 。 观 众 对 这 些 图 像 进 行 组 污 ， 试 着 把 各 个 图 像 上 友 生 的 事情 吐 通 起 
来 。 感 知 系统 会 注意 到 帧 之 间 的 变化 ， 因 此 动画 可 以 被 理解 为 不 同 帧 
之 间 的 一 系列 视觉 变化 。 当 变化 很 少时 ， 可 以 很 容易 理解 发 生 了 什么 
变化 ， 而 且 观 众 也 可 以 很 容易 追踪 这 些 变 化 。 但 当 有 大 量 的 变化 时 ， 
理解 就 会 变 得 很 复杂 。 

















Gestalt 的 “共同 命运 ”( (cmmon fate) 感知 原则 指出 观众 会 把 大 
量 的 事物 组 合 在 一 起 ， 如 采 这 些 事物 以 相同 速度 、 沿 相同 方向 运动 ， 
它们 整 会 被 看 作 同 一 组 。 个 别 沿 着 目 己 的 轨迹 运动 的 对 象 将 会 被 看 作 
“游离 上 尽 ”， 在 视觉 上 会 很 明显 。 但 是 ， 如 果 所 有 事物 都 沿 关 不同 的 
方向 运动 ， 观 众 将 无 法 应 付 。 感 知 研究 人 员 已 经 证 实 了 观众 难以 对 超 
过 4 个 或 5 个 独立 运动 的 对 象 进行 退 踩 一 一 他 们 将 放 莽 退 踪 所 有 有 的 ， 转 
而 只 奶 踩 几 个 物体 ， 把 其 他 的 作为 “ 噪 首 ”看 得 ( (Cvanagh、Alvarez 
2005) « 


科学 可 视 化 中 的 动画 


在 一 年 一 度 的 IEEE VisWeek 会 议 一 一 可 视 化 的 研究 峰会 上 ， 与 会 
人 员 被 分 成 了 两 组 : 信息 可 视 化 研究 人 员 和 科学 可 视 化 研究 人 员 。 这 
两 组 的 演讲 不 同 ， 坐 在 不 同 的 会 议 室 ， 有 时 吃饭 也 是 坐 在 不 同 的 餐 昌 
边 。 观 察 这 些 演讲 ， 很 快 就 可 以 注意 到 ， 在 科学 可 视 化 会 议 室 里 大 约 
有 一 半 的 文章 是 关于 动画 的 ， 而 在 信息 可 视 化 会 议 室 里 几乎 没有 一 篇 
文章 是 关于 动画 的 。 你 可 以 认为 这 两 个 分 组 之 间 的 区 别 在 于 科学 可 视 
化 研究 人 员 是 真正 理解 x>、y、z 轴 含义 的 人 : 他 们 善于 绘制 图 片 的 各 个 
维度 ， 理 解 深度 和 距离 的 涵义 。 他 们 通常 研究 动态 过 程 ， 比 如 大 风 吹 
过 飞机 机 辟 、 飓 风 席 卷 整个 地 图 、 血 液 沿 着 静态 流动 ， 此 外 往往 还 涉 
及 另外 一 个 维度 : 时 间 。 因 为 难以 把 时 间 强 加 到 其 他 三 个 维度 (x、 


ya 2H) 中 ,动画 是 显示 该 过 程 的 一 个 不 错 的 选择 。 








与 此 相反 ， 数 据 可 视 化 就 没有 如 此 简单 了 。 信 息 可 视 化 研究 人 员 
通 各 致力 于 抽象 的 数据 空间 ， 其 各 个 轴 并 未 与 现实 世界 对 应 《如 果 这 
些 轴 有 任何 涵义 的 话 ) 。 观 众 需要 适应 他 们 能 够 看 到 的 各 个 维度 ， 然 
后 学 会 解释 它们 。 因 此 ， 在 信息 可 视 化 领域 ， 与 动画 有 关 的 文章 相对 
较 少 。〔 我 们 后 面 将 讨论 其 中 几 个 例子 。) 


从 卡通 中 学 习 


当然 ， 动 画 在 可 视 化 以 外 的 领域 很 流行 。 电影 和 卡通 所 遵循 的 一 
些 的 原则 和 计算 机 动画 相同 ， 因 此 有 人 会 问 卡通 技术 是 否 会 给 创建 动 
画 可 视 化 带 来 一 些 有 用 的 认 知 。 早 在 1946 年 ， 比 利 时 的 心理 学 家 
Albert Michotte 就 提出 “因果 性 知觉 ”(〈 (prception of causality) 
( (Mchotte 1963) 。 人 们 很 容易 相信 动画 中 的 运动 是 有 目的 的 : 一 个 
点 是 在 追逐 另 一 个 点 《而 不 是 认为 一 个 点 在 沿 着 相同 的 轨迹 在 其 后 面 
运动 ) ; 或 者 是 一 个 球 击 中 了 另 一 个 球 〈 而 不 是 “这 个 点 在 位 置 A 停 
下 ， 而 另 一 个 点 从 位 置 A 运 动 到 位 置 B8”) 等 。 因 此 ， 我 们 可 以 把 原因 
归于 媒介 和 因果 性 ， 虽 然 实际 上 二 者 都 不 存在 。 





当然 ， 在 卡通 里 ， 我 们 希望 表达 因果 关系 。 传 统 的 漫画 家 描述 了 
为 了 表达 情感 ， 如 何 给 漫画 赋予 “生命 约 觉 ”( Cilusion of life) 
( (Jhnston#lThomas 1987) ， 还 有 一 些 研究 论文 ( (Lsseter 1987; 
Chang 和 Ungar 1993) 曾 尝 试探 索 如 何 为 计算 机 动画 和 可 视 化 提炼 思 


想 
rjad gel 


传统 漫画 家 采取 一 系列 技术 ， 有 些 和 真实 生活 不 完全 一 致 。 举 个 
例子 ， 挤 压 和 拉 伸 ， 在 事物 运动 时 对 它 进行 扭曲 ， 把 眼睛 画 成 和 运动 
方向 一 致 :事物 在 以 最 快速 度 飞行 时 可 能 会 拉 伸 ， 而 挤 压 表 达 的 含义 
是 停止 运动 、 收 集 能 量 或 改变 方向 。 沿 着 弧 线 运动 意味 着 运动 更 自 





然 ， 沿 着 直线 的 运动 看 起 来 目的 很 明确 。 在 事物 开始 运动 前 ， 他 们 预 
测 即 将 发 生 的 运动 ， 而 以 持续 性 告终 。“ 渐 进 和 渐 出 ”( Cese- 

in, ease-out) 是 定时 动画 技术 的 一 门 技术 : 动画 缓慢 开始 以 强调 方 
向 ， 中 间 加 速 ， 最 后 速度 又 缓 下 来 。 复 杂 的 运动 分 解 为 多 个 阶段 来 吸 
引 人 们 要 特别 注意 的 个 别 部 分 。 








可 视 化 研究 人 员 以 不 同 的 热情 改造 过 这 些 技术 并 获得 了 不 同 程度 
的 成 功 。 举 个 例子 ， 信 息 可 视 化 研究 框架 ( (Crd、Robertson 和 
Mackinlay 1991) ， 一 个 早期 的 三 维 动画 框架 ， 其 中 集成 了 部 分 原 
则 ， 包 括 预期 、 弧 线 和 后 续 跟 进 。 男 一 方面 ， 其 中 的 某 些 原则 看 起 来 
非常 不 恰当 。 比 如 ， 对 一 个 数据 点 的 挤 压 或 拉 伸 会 扭曲 它 ， 改 变 可 视 
化 的 本 质 ; 因此 ， 我 们 不 再 认为 可 视 化 在 动画 的 每 个 帧 维持 一 致 性 原 
则 “高 度 映射 这 个 ， 宽 度 映 射 那 个 ”。Zongker 和 Salesin(2003 年 ) 
在 用 幻灯 片 展示 的 研究 成 果 中 ， 提 醒 人 们 很 多 动画 技术 会 分 散 注 意 力 
或 具有 欺骗 性 ， 其 推导 所 展示 出 的 因果 性 可 能 都 不 存在 。 此 外 ， 这 些 
动画 技术 往往 会 给 入 们 一 种 错觉 ， 它 可 能 非常 不 适合 数据 可 视 化 。 
(一 个 例外 是 “We Feel Fine”， 在 该 可 视 化 中 ， 运 动 表示 传达 情 
感 ， 而 且 它 有 效 地 使 用 该 技术 实现 了 这 个 效果 。) 











动画 的 负面 效应 


动画 在 数据 可 视 化 中 的 应 用 不 如 科学 可 视 化 成 功 。 二 元 研究 碍 看 
了 不 同类 型 的 动画 一 一 过 程 动画 和 算法 可 视 化 一 一 发 现 这 两 类 动画 在 
帮助 学 生 学 习 更 复杂 过 程 时 对 记录 的 追踪 参差 不 齐 。 











心理 学 家 Barbara Tversky 发 现 ， 让 她 有 些 失 望 的 是 ， 动 画 看 起 来 
并 不 利于 过 程 可 视 化 〈 也 就 是 说 ， 显 示 如 何 使 用 工具 或 技术 的 可 视 
化 ) 。 她 在 文章 《Animation:Can It Facilitate?》( (Tersky、 
Morrison#lBétrancourt 2002) 中 讲述 了 对 接近 100 部 的 动画 和 可 视 化 
作品 的 研究 。 没 有 任何 一 部 动画 的 研究 证 明 动 画 的 效果 超过 信息 丰富 
的 统计 图 ， 虽 然 它 确实 优 于 文本 表示 ， 也 优 于 没有 过 渡 状 态 而 只 显示 
开始 和 结束 状态 的 简单 展示 。 算 法 动画 在 很 多 方面 类 似 于 过 程 可 视 
化 : 可 以 通过 演示 各 个 步骤 来 说 明 算法 。 例 如 ， 有 些 排序 算法 非常 适 
合 于 动画 : 可 以 把 一 组 值 描绘 成 条 形 序列 图 ， 排 序 操作 就 是 移动 条 形 
图 。 这 些 动画 可 以 很 容易 地 演示 冒 泡 排 序 和 插入 排序 之 类 的 算法 。 
Christopher Hundhausen、Sarah Douglas 和 John Stasko (2002 年 ) 
试 着 了 解 算法 可 视 化 在 教室 里 的 有 效 性 ， 但 是 在 他 们 的 研究 中 ， 有 一 
半 表 明 动画 无 法 帮助 学 生理 解 算法 。 有 趣 的 是 ， 预 测 成 功 的 最 强 因子 
是 动画 背后 的 可 视 化 。 包 含 建构 理论 的 可 视 化 是 最 有 用 的 一 一 也 就 是 
说 ， 当 学 生 实 现代 码 或 算法 ， 查 看 自己 的 作品 的 可 视 化 ， 或 者 向 学 生 
提问 ， 让 他 们 试 着 通过 可 视 化 回答 这 些 问题 。 相 比 之 下 ， 动 画 在 传授 
知识 方面 效果 不 好 ; 被 动 地 观察 动画 并 不 比 其 他 方式 的 教学 效果 好 。 
































GapMinder 和 动画 散 点 图 





动画 可 视 化 最 近 的 一 个 例子 是 Hans Rosling 的 

GapMinder (http: //www. gapminder. org). 。Rosling 是 瑞典 研究 全 球 健 
康 的 教授 ，2006 年 2 月 他 在 关于 “和 科技、 娱乐、 设计 (TD) ”的 会 议 
U 中 首次 和 现场 观众 交互 ， 之 后 和 很 多 网 友 进 行 了 交互 。 他 从 国 际 资 
源 中 收集 了 公众 健康 统计 数据 ， 在 他 的 演讲 中 ， 这 些 数 据 被 绘制 成 了 
散 点 图 。 在 可 视 化 中 ， 一 个 点 代表 一 个 国家 ， 其 中 x 和 y 值 表示 如 寿命 
和 平均 孩子 数 之 类 的 统计 ， 而 且 每 个 点 的 面积 都 和 其 表示 的 国家 的 人 
O 数 对 应 。Rosling 首 先 显示 的 是 单个 帧 一 一 在 某 一 年 的 国家 统计 一 一 
在 通过 时 间 追 踪 可 视 化 进展 前 ， 使 用 动画 对 每 年 的 图 像 进行 显示 。 








图 19-1 显 示 了 类 似 于 GapMinder 动 画 的 3 个 帧 。x 轴 表示 出 生 时 的 预 
期 寿命 ，y 轴 表示 婴儿 死亡 率 。 气 泡 大 小 和 和 人口 数 对 应 ， 对 每 个 州 进行 
颜色 编码 ; 最 大 的 两 个 点 是 中 国 和 印度 。 





à 5 
” E 。 
ə E 
Ay + ? ad 
9 r 
. > m 
* "i, 
= Se 
1995 2000 
e 2 
Aor ges 
ô a8 
as -9 
ma Be, 
ad é 
a oe 
™ bw .he 


图 19-1: 类 似 GapMinder 的 可 视 化 说 明了 在 1975、1985、1995、2000 
这 4 年 间 75 个 国家 的 信息 ; 该 图 对 寿命 (x 轴 ) 和 婴儿 死亡 率 〈y 轴 ) 进 
行 绘 图 。 在 左上 角 的 国家 ， 其 婴儿 死亡 率 高 ， 寿 命 短 〈( 见 彩 图 160) 





Rosling 的 动画 很 吸引 人 : 他 使 用 了 点 的 运动 ， 描 述 了 他 们 的 相对 
进展 。 中 国 提 出 了 适当 的 公共 健康 规划 ， 其 所 代表 的 点 就 同上 运动 ， 
而 其 他 国家 也 尝试 实践 了 相同 的 策略 。 一 个 国家 的 经 济 飞 速 增长 ， 其 
所 代表 的 点 就 迅速 向 右 运 动 。Rosling 使 用 该 动画 很 有 力 地 说 明了 我 们 








对 公共 健康 问题 的 理解 以 及 发 达 国 家 和 发 展 中 国家 之 间 的 差别 ， 动 画 
帮助 观众 理解 他 的 观点。 


[il] : 在 网 上 

http: //www. ted. com/talks/hans rosling shows the best stats y 
ou ve ever seen. html 可 以 得 到 相关 资料 。Rosling 在 TED 2007 和 TED 
2009 两 次 会 议 中 做 了 类 似 的 探讨 。 
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之 前 提 到 的 感知 心理 学 研究 表明 人 们 最 多 同时 跟踪 4 个 运动 的 点 。 
在 展示 过 程 中 ，Rosling 可 以 引导 观众 ， 说 明 应 该 奏 看 哪里 ， 而 且 他 的 
讲述 告诉 了 人 们 应 该 关注 哪些 点 。 借 助 很 长 的 指示 棒 ， 他 描述 了 一 个 
国家 的 进步 ， 应 该 得 看 哪里 。 这 降低 了 混乱 。 











另 一 个 优势 在 于 他 使 用 的 二 维 散 点 图 中 “好 ”和 “ 坏 ” 的 指示 非 
常 明 确 : 一 个 国家 走向 更 高 的 GDP 和 有 更 长 的 人 均 寿 命 就 是 好 的 《〈 即 向 
上 、 辐 右 运动 ) ， 而 旨 着 相反 的 方向 运动 加 是 坏 的 〈 辐 下 、 同 左 运 
动 ) 。 





Rosling 明 确 地 引导 大 家 应 该 注意 的 点 ， 该 可 视 化 非常 有 效 。 但 
和 是， 如 果 把 时 间 散 点 图 结合 到 标准 的 电子 表格 中 ， 对 于 那些 想 要 了 解 
数据 的 人 是 否 会 同样 有 用 呢 ? 
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在 微软 研究 院 ， 我 们 很 好 奇 ， 这 些 动画 技术 对 那些 不 熟悉 数据 的 
人 们 是 否 仍然 有 效 。 我 们 重新 实现 了 一 个 类 似 GapMinder 的 动画 ， 在 适 
HA Cx, y) 坐标 点 绘制 点 ， 通 过 年 份 把 这 些 点 平滑 地 插 在 一 起 。 然 
后 ， 我 们 考虑 3 种 可 替代 的 静态 可 视 化 ， 它 包含 和 该 动画 相同 的 信息 
量 。 首 先 ， 我 们 可 以 简单 地 采用 单个 帧 ， 如 图 19-1 所 示 。 然 而 ， 在 最 
开始 的 草图 中 ， 我 们 就 已 经 意识 到 这 种 方法 不 好 : 这 种 方式 使 得 追踪 
在 多 个 帧 之 间 的 点 的 运动 很 难 。 能 够 沿 着 各 个 国家 的 运动 轨迹 并 对 它 
们 进行 比较 是 GapMinder 的 非常 重要 的 部 分 。 我 们 希望 用 户 能 够 对 点 从 
一 个 地 方 运 动 到 另 一 个 地 方 有 连续 的 观念 ， 而 这 是 简单 的 单个 帧 无 法 








因此 ， 我 们 实现 了 另外 两 种 视图 ， 使 用 的 国家 集合 和 轴 与 图 19-1 
的 相同 ， 数 据 是 从 1975 年 到 2000 年 的 。 第 一 个 视图 是 轨迹 视图 ， 它 显 
示 了 在 另 一 个 轨迹 上 的 所 有 路 径 ， 如 图 19-2 所 示 。 第 二 个 图 由 很 多 小 
的 视图 组 合 而 成 ， 它 在 每 条 轴 上 分 别 独立 绘制 了 每 条 路 径 ， 如 图 19-3 
所 示 。 在 第 一 个 视图 中 ， 我 们 使 用 透明 度 描述 时 间 ; 在 第 二 个 视图 
中 ， 我 们 通过 点 的 大 小 表示 时 间 。 
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图 19-2: 轨迹 视 岁 ， 其 中 每 个 国家 被 表示 成 一 系列 点 ， 这 些 点 随 寿 
时 间 而 变 得 更 模糊 ， 年 份 和 “褪色 ”的 点 组 成 的 线 相连 〈( 见 彩 图 161) 
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图 19-3: 多 个 小 视图 的 组 合 ， 其 中 每 个 国家 在 它 自己 的 小 的 坐标 系 
统 中 : 点 的 逐渐 变 大 被 用 来 表示 时 间 的 前 移 〈 见 彩 图 162 ) 





我 们 希望 了 解 ， 对 用 户 而 言 ， 动 画 和 遂 态 图 形 表示 相 比 效果 如 
何 。 用 户 可 以 在 GapMinder 网 站 上 设置 目 己 的 散 点 图 ， 但 是 他 们 是 否 能 
够 从 自己 的 数据 中 学 到 新 的 东西 ? 


基于 美国 的 公共 健康 和 人 口 普查 数据 ， 我 们 选择 30 组 不 同 的 
Cx, y) 值 ， 问 用 户 展示 非常 简单 的 问题 ， 如 “在 这 个 散 点 图 中 ， 哪 个 





国家 GDP 增 长 最 快 ”、“ 在 这 个 散 点 图 中 ， 结 婚 率 下 降 最 快 的 国家 在 哪 
个 洲 ”。 我 们 还 招募 那些 熟悉 散 点 图 并 且 在 日 常 工作 中 处 理 数 据 的 用 
户 。 有 些 人 需要 “探索 ”数据 ， 坐 在 计算 机 前 回答 问题 。 其 他 人 得 到 
“讲稿 ”， 叙 述 者 将 向 他 们 展示 可 视 化 或 者 播放 动画 。 当 这 些 用 户 回 
答 问 题 时 ， 我 们 会 记录 其 回答 的 时 间 和 准确 性 。 


Robertson 等 给 出 了 该 研究 的 详细 数值 结果 (2008 年 )。 其 主要 结 
论 可 以 非常 简单 地 表述 如 下 : 与 其 他 方式 相 比 ， 动 画 传递 信息 时 的 效 
率 和 准确 度 都 比较 低 。 


用 动画 进行 的 探索 效率 更 低 


我 们 发 现 ， 当 用 户 自己 探索 数据 时 ， 他 们 会 播放 几 十 次 动画 ， 查 
看 哪个 国家 是 准确 答案 。 相 反 ， 那 些 观 看 讲稿 并 且 不 能 自己 控制 动画 
的 用 户 的 回答 则 要 快 得 多 : 他 们 必须 马上 选择 一 个 答案 。 因 此 ， 动 画 
在 用 于 数据 探索 时 是 效率 最 低 的 ， 而 动 男 在 用 于 展现 时 则 是 效率 最 高 
的 。 有 趣 的 是 ， 这 可 能 正好 解释 了 为 什么 Tversky 的 过 程 动画 如 此 不 成 
功 。 在 我 们 的 测试 中 ， 用 户 显 然 想 要 能 够 快 进 和 后 退 ; 可 能 在 过 程 动 
画 中 也 存在 同样 的 问题 。 和 一 系列 静态 图 片 相 比 ， 要 从 动画 中 获取 到 
相同 的 信息 需要 付出 更 多 的 努力 ， 因 为 需要 全 部 重播 ， 而 不 是 直接 跳 
到 你 想 要 看 的 那 部 分 。 
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使 他 们 不 能 给 出 正确 的 答案 。 他 们 回答 问题 的 准确 性 和 回答 速度 无 
KR: 观看 动画 的 用 户 花 费 更 多 的 时 间 探 索 数 据 ， 但 似乎 并 没有 驱动 他 
们 产生 更 好 的 缩 示 。 


这 一 点 似乎 是 动画 的 缺点 : 传递 信息 的 效率 和 准确 率 都 更 低 。 男 
一 方面 ， 我 们 发 现 动画 的 吸引 力 更 强 ， 更 容易 打动 人 心 : 一 名 飞行 员 
看 到 一 个 饱 受 战争 踩 踊 的 国家 的 人 均 寿 命 大 幅 下 跌 了 30 年 ， 他 震惊 得 
喊 了 出 来 。 通 常 ， 用 户 更 希望 接触 动画 ， 认 为 它 比 其 他 方式 更 让 人 恰 
RAXA. BRAMEN M ELENE: “那个 点 要 去 哪 ? ” 
有 个 用 户 异 怒 地 喊 道 ， 因 为 有 个 稳步 上 升 的 把 突然 下 降 。 





这 些 结果 表明 Rosling 的 演讲 和 我 们 的 用 户 体 验 有 些 区 别 。 人 至 关 重 
要 的 是 ，Rosling 知 道 答案 : 他 已 经 对 数据 进行 了 研究 ， 知 道 自己 想 要 
表达 的 观点 ， 然 后 带领 观察 者 找到 答案 。 他 在 相同 的 轴 集 合 上 表示 ， 
这 样 用 户 就 不 会 迷失 方向 。 数 据 相 当 人 简单: 在 静态 图 中 ， 他 只 突出 极 
少 的 几 个 国家 ， 这 些 国 家 在 趋势 中 变化 很 大 ， 而 当 他 同时 对 很 多 国家 
动画 显示 时 ， 显 示 上 过 于 紧 炭 ， 运 行 方向 相同 。 他 选择 轴 表 示 ， 使 得 
那些 国家 可 以 沿 着 一 致 的 方 癌 运动 ， 使 得 用 户 可 以 很 方便 奶 踪 起 源 和 


目标 。 利 用 “Gestalt 共 同 命运 原则 ”( (Gstalt principle of 
common fate) 对 这 些 国家 进行 了 分 组 ， 可 以 最 清晰 地 表达 这 些 国家 间 


的 过 渡 。 


相 比 之 下 ， 我 们 的 用 户 需 要 及 时 抓 住 很 短 的 片段 ， 记 住 那 些 突 然 
变化 的 国家 ， 而 且 没 有 解说 员 来 对 他 们 将 要 看 到 的 进行 解释 ;不 是 从 
解说 员 那 里 找到 答案 ， 而 是 需要 他 们 目 己 去 找到 它 。 这 对 我 们 来 说 意 
味 着 我 们 的 用 户 需 要 做 的 和 Rosling 所 做 的 区 别 很 大 一 一 非常 不 一 样 ， 
实际 上 ， 这 些 不 同 之 处 甚至 可 以 独立 写成 一 章 。 











展现 不 是 探索 








面 对 着 一 张 电子 表格 的 分 析 师 事 先 并 不 知道 数据 要 说 明 什么 ， 
此 需要 从 多 个 角度 来 分 析 数 据 ， 寻 找 可 能 隐藏 在 数据 中 的 关联 、 连 接 
和 思想 。 这 个 过 程 相当 于 竟 食 一 一 快速 地 查看 一 张 给 定 图 形 或 视图 来 
确定 是 售 存 在 一 些 可 以 调查 的 有 趣 的 方面 ， 随 后 是 移动 新 的 过 小 方式 
或 友 现 新 的 图 片 。 











相反 ， 讲 演 者 非常 了 解 自己 的 数据 。 他 们 已 经 从 数据 集中 清除 了 
脏 数 据 ， 可 能 已 经 删除 了 一 些 游离 点 或 者 重点 强调 了 文 持 自己 想 要 表 

达 的 核心 思想 的 数据 。 他 们 选择 能 够 很 好 地 表达 自己 的 观点 的 轴 和 时 
间 区 间 ， 并 且 引 导 观 众 查 看 数据 。 最 重要 的 是 ， 他 们 不 太 可 能 需要 像 
我 们 的 用 户 那 样 ， 为 了 确认 目 己 有 没有 忽略 掉 了 茶 个 点 ， 需 要 快 退 或 
快 进 查看 数据 。 对 于 这 些 情况 ， 动 画 有 其 非凡 的 意义 : 它 使 得 演讲 者 
可 以 生动 有 趣 地 表达 其 观点 。 





























对 数据 进行 探索 和 对 它 进行 展现 是 不 同 的 。 人 们 很 容易 筷 记 这 一 
扩 ， 因 为 有 很 多 工具 把 这 两 者 混合 在 了 一 起 。 也 就 是 说 ， 许 多 软件 包 
提供 了 很 多 方式 来 使 得 图 形 看 起 来 更 绚丽 且 适 于 展现 ， 而 且 这 些 工 具 
和 那些 用 于 增强 图 形 可 读 性 和 适用 于 分 析 的 工具 很 难 完全 区 分 开 。 举 
个 例子 ， 在 Microsoft Excel 表 中 ， 同 一 个 菜单 ， 它 既 控 制 轴 是 含有 日 
志 规 模 ， 而 且 帮 助 决定 是 否 使 用 很 绚丽 的 色彩 来 完成 条 形 图 。 对 于 这 

















两 种 工具 ， 前 者 对 于 数据 探索 是 至 关 重 要 的 ; 而 后 者 主要 是 用 于 展 
现 。 当 完成 在 Excel 表 中 的 数据 分 析 后 ， 我 可 以 直接 把 图 形 复制 到 
PowerPoint 中 。 由 于 这 种 无 颖 性， 使 用 该 软件 的 人 们 很 少 会 有 人 讨论 
展现 和 探索 之 间 的 重要 区 别 。 











表 19-1 总 结 了 探索 和 展现 在 需求 上 的 主要 区 别 。 


表 19-1: 探索 和 展现 的 区 别 
探索 展现 





特征 存在 意 想不到 的 数据 展示 者 对 数据 非常 了 解 
可 能 存在 脏 数 据 数据 已 经 清洗 过 
数据 可 能 会 变 得 难以 预测 观看 者 是 被 动 的 
数据 观察 者 控制 如 何 交互 


目标 /过 程 可 以 一 次 性 分 析 多 个 维度 为 了 推出 某 个 观点 ， 只 展示 较 少 的 维度 
多 次 改变 映射 关系 清晰 地 逐个 说 明 维 度 
寻找 趋势 和 漏洞 突出 关键 点 

把 各 点 组 织 起 来 ， 说 明 趋势 和 运动 








当然 ， 探 索 和 展现 并 不 是 完全 分 离 的 。 很 多 交互 的 Web 应 用 允许 用 
户 去 探索 一 些 维度 而 同时 并 没有 其 圳 原始 数据 。 展 现 和 探索 之 间 的 关 
系 意味 着 设计 师 需 要 考虑 他 们 的 可 视 化 的 目的 。 设 计 上 存在 权衡 ， 使 
之 不 仪 仅 适 用 于 动画 而 且 适 用 于 更 为 普 吉 的 方方面面 。 
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动 国 关 型 


某 些 类 型 的 动画 最 适合 于 展现 ， 而 其 他 的 可 能 更 适合 探索 。 在 本 
半 中 ， 我 们 将 讨论 不 同类 型 的 转换 ， 从 改变 可 视 化 的 视图 到 改变 可 视 
化 的 轴 来 改变 可 视 化 中 的 数据 。 我 们 首先 一 起 来 探讨 一 些 系 统 ， 它 们 
需要 管理 两 种 不 同类 型 的 变化 。 





动态 数据 ， 动 男 中 心 重 定位 


在 2001 年 ， 对 等 网 络 〈P2P) 文件 共享 成 为 被 广泛 探讨 的 一 个 话 
题 。Gnutella 系 统 是 其 中 最 早 的 大 规模 网 络 之 一 ， 我 认为 其 值得 研 
究 。Gnutella 和 其 他 的 P2P 系 统 不 同 。 更 早 的 Napster 系 统 为 网 络 中 的 
所 有 东西 都 保留 了 一 个 非常 详细 的 索引 BitTorrent 后 来 完全 去 掉 了 
索引 。Gnutella 在 不 同 对 等 体 ( (per) 之 间 传 递 搜索 请 求 ， 把 问题 发 到 
各 个 对 等 体 ， 然 后 等 竺 回复。 当 我 使 用 P2P 搜 索 来 查找 一 首 歌 ， 到 底 会 
查找 多 少 台 机 器 ?我 的 顾客 会 看 到 多 大 的 网 络 规模 呢 ? 











我 们 利用 Gnutella 的 可 视 化 客户 端 ， 来 表示 整个 网 络 。 我 们 很 快 
发 现 一 些 问题 ， 首 先 ， 新 的 节点 不 断 在 网 络 上 出 现 ， 其 次 ， 知 道 这 些 
节点 的 位 置 是 非常 有 意思 的 。 新 节点 的 不 断 出 现 意味 着 我 们 需要 能 够 
使 可 视 化 稳定 。 系 统 中 可 能 总 会 有 新 的 数据 进来 ， 而 且 重 要 的 是 ， 随 
着 新 数据 进入 系统 ， 用 户 不 会 由 于 可 视 化 中 数据 点 的 变化 而 受到 干 
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新 绘制 可 视 化 : 我 们 希望 有 一 个 系统 ， 新 的 数据 可 以 简单 而 且 优雅 地 
添加 到 可 视 化 中 。 


由 于 Gnutella 网 络 使 用 基于 P2P 的 发 现 协议 ， 专 注 于 单个 节点 及 其 
邻居 节点 的 研究 往往 可 以 发 现 一 些 有 趣 的 结果 。 这 个 节点 是 否 连接 到 
一 个 中 心 “ 超 级 节点 ”? 它 是 否 发 送 很 多 请 求 ? 我 们 希望 能 够 重点 查看 
单个 节点 及 其 邻居 节点 ， 并 且 能 够 很 容易 地 估算 节点 之 间 的 跳 数 。 这 
就 要 求 在 不 改变 布局 的 其 余部 分 的 情况 下 能 够 改变 视觉 效果 
( (vewpoint)。 我 们 的 工具 被 命名 为 GnuTellaVision， 或 6TV (Yee 等 
2001) 。 为 满足 前 文 所 述 的 两 个 需求 我 们 使 用 了 两 种 动画 技术 。 这 个 
可 视 化 采用 了 径 向 布局 的 方式 ， 既 可 以 揭示 数据 的 变化 过 程 一 一 随 着 
连接 的 不 断 增加 而 不 断 向 外 伸展 一 一 又 有 利于 估计 中 心 节点 和 其 他 节 
点 之 间 的 跳 数 。 径 向 布局 的 优点 是 拥有 定义 良好 的 中 心 点 和 一 系列 向 
外 伸展 的 层次 。 在 发 现 新 的 节点 时 ， 就 把 新 节点 添加 到 从 起 点 开始 的 
跳 数 的 对 应 的 环 中 。 当 有 新 的 节点 需要 添加 时 ， 只 需要 移动 少量 的 邻 
居 节 点 《可 视 化 中 的 多 数 节 点 不 需要 移动 ) 。 在 运行 过 程 中 ， 这 个 可 
视 化 会 随 着 新 数据 的 到 来 而 不 断 更 新 ， 动 画 也 会 随 着 改变 〈 见 图 19- 
An 
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图 19-4; 网 络 中 新 节点 出 现 前 的 GTV〈 左 图 ) 和 新 节点 出 现 后 的 
GTV CERD 一 一 由 于 节点 生成 了 更 多 的 信息 ， 它 们 的 大 小 和 颜色 也 会 
变化 〈 见 彩 图 163 ) 





当 用 户 查 看 一 个 节点 时 ，GTV 会 重新 调整 画面 ， 把 选中 的 节点 放 在 
中 心 。 在 我 们 的 第 一 个 设计 中 ， 以 尽 可 能 简单 的 方式 实现 了 这 个 功 
fe: 我 们 计算 了 一 种 新 的 径 同 布局 ， 然 后 线性 移动 节点 ， 从 原来 的 位 
置 移动 到 新 位 置 。 使 用 这 种 方式 生成 的 结果 非常 令 人 困惑 ， 很 多 节点 
MIA 位 置 移动 到 新 位 置 时 会 产生 交 义 。 第 一 种 解决 方式 是 让 节点 沿 着 
极 坐 标 运动 而 且 是 始终 顺 时 针 运 动 。 在 绘制 时 ， 节 点 会 一 直 保 持 在 相 
同 的 位 置 ， 然 后 平 请 地 移动 到 新 的 位 置 《 见 图 19-5) 。GTV 是 面 癌 检查 
节点 《对 于 用 户 而 言 可 能 是 全 新 的 ) ， 需 要 不 断 发 现 新 的 信息 ， 
此 ， 使 动画 能 够 帮助 用 户 跟踪 节点 的 路 径 从 而 促进 探索 就 非常 重要 














了 。 采 用 径 向 布局 拥有 较 大 的 自由 度 : 节点 可 以 沿 着 半径 以 任何 次 序 
出 现 ， 而 且 任 何 节 点 都 可 以 出 现在 最 上 面 。 如 果 我 们 不 对 这 些 维度 进 
行 限制 ， 有 时 节点 甚至 会 从 屏幕 下 方 运动 到 上 方 。 我 们 希望 节点 尽 可 
能 少 地 运动 ， 因 此 我 们 添加 了 一 组 约束 条 件 : 尽 可 能 让 节点 保持 相对 
方位 和 次 序 。 相 对 方位 保持 稳定 ， 意 味 着 维护 从 可 视 化 日 中 心 到 新 中 
心 的 连接 线 的 相对 位 置 。 相 对 次 序 保持 稳定 ， 意 味 着 节点 的 邻居 在 环 
上 的 次 序 需要 保持 不 变 。 图 19-6 说 明了 这 两 点 。 


























Al 19-5: 直角 坐标 系 〈 上 图 ) 的 插值 使 节点 的 路 径 交 叉 在 一 起 ; 极 
坐标 系 的 插值 《下 图 ) 使 得 运动 变 得 平滑 《〈 见 彩 图 164) 











最 后 ， 为 了 帮助 用 户 查 看 运动 是 如 何 发 生 的 ， 我 们 借鉴 了 卡通 中 
的 “渐进 - 渐 出 ”方式 。 


本 章 说 明了 一 些 值得 遵循 的 有 用 的 原则 : 


兼容 性 





选择 一 款 和 动画 兼容 的 可 视 化 。 在 GTV 中 ， 修 改 径 向 布局 很 容易 ; 
可 以 通过 在 图 上 放置 新 的 节点 的 方式 实现 最 小 化 变化 的 效果 ， 而 且 像 
很 多 树 形 表示 一 样 ， 可 以 对 不 同 的 节点 进行 重 定 位 。 


坐标 运动 


运动 应 该 出 现在 一 个 有 意义 的 坐标 可 视 化 空间 中 。 我 们 希望 用 户 
在 可 视 化 的 动画 过 程 中 始终 能 够 定位 ， 这 样 他 们 可 以 更 好 地 预测 和 妃 
踪 运 动 。 举 个 例子 ， 在 GTV 中 ， 使 用 直角 坐标 进行 转换 会 让 用 户 难 以 预 
测 并 深 感 困惑 ， 相 反 地 ， 径 向 坐标 意味 着 用 户 可 以 对 过 渡 进 行 妃 踩 ， 
可 视 化 依然 是 有 意义 的 。 
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Al 19-6: 动画 中 心 重 定位 : 紫色 突出 显示 的 节点 变 成 中 心 ， 而 其 他 
节点 集 的 相对 位 置 和 顺序 保持 不 变 〈 大 的 蓝 色 节点 在 后 面 ， 而 一 组 小 
的 黄色 节点 沿 着 外 环 依 序 散 开 ， 见 彩 图 165 ) 


有 意义 的 运动 





虽然 动画 是 关于 物体 的 运动 的 ， 但 不 必要 的 运动 会 让 人 困惑 。 通 
常情 况 下 ， 在 给 定 的 转换 中 ， 运 动 的 物体 越 少 越 好 。 对 GTV 动 画 的 自由 
度 进行 限制 ， 使 可 视 化 尽 可 能 少 地 变化 ， 使 物体 基本 保持 在 相同 的 位 
Flo 


动画 的 分 类 








在 可 视 化 中 可 能 会 存在 很 多 种 变化 。 在 讨论 GapMinder 时 ， 我 们 讨 
论 了 数据 的 变化 ， 在 GTV 的 例子 中 ， 我 们 说 明了 数据 和 视图 的 变化 。 然 
而 ， 人 们 希望 增加 的 转换 类 型 可 能 很 多 。 下 面 这 个 列表 是 基于 Heer 和 
Robertson 〈2007 年 ) 的 理论 所 做 的 一 些 修改 。 每 种 转换 都 是 独立 的 ; 
应 该 只 改变 一 个 元 素 。 很 多 这 类 观点 适用 于 数据 展现 和 探索 : 











改变 视图 


对 图 片 进 行 放 大 和 缩小 ， 如 地 图 或 很 大 的 数据 空间 。 在 图 上 改变 
绘图 表面 改变 轴 (如 从 线性 表示 改 成 以 对 数 标尺 表示 )〉 。 例 如 ， 在 地 
图 上 ， 把 Mercator 投 影 ||) 改 成 球形 。 





过 滤 数 据 


把 满足 特定 标准 的 数据 点 从 当前 视图 中 删除 。 


重新 排序 数据 


改变 数据 点 的 次 序 〈《 如 依 字母 顺序 对 列 进行 排序 ) 。 


改变 展现 方式 





条 形 图 改 成 饼 状 图 ; 改变 图 的 布局 ;改变 市 点 频 色 。 


改变 数据 


按照 一 定 的 时 间 步 长 同 前 移动 数据 ， 修 改 数据 ， 或 者 更 改 描述 的 
值 ( 如 一 个 条 形 图 可 能 从 “ 启 利 ” 变 成 “损失 ”) 。 正 如 前 面 所 讨论 
的 ， 按 时 间 移 动 数 据 对 于 展现 很 可 能 是 更 有 用 的 。 这 6 种 过 渡 类 型 可 以 
涵盖 数据 可 视 化 中 的 绝 大 多 数 动 画 。 过 程 可 视 化 可 能 会 有 不 同 的 分 
类 ， 正 如 科学 可 视 化 传达 的 是 数据 流 《〈 如 罕 过 远 膀 的 空气 ) 。 下 一 
步 ， 我 们 将 通过 几 个 例子 来 讨论 在 给 定 该 过 渡 集 时 该 如 何 管理 这 些 动 
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[1] Mercator#< 8%, SORE IE RSE IA 圆柱 投影 ， 是 地 图 投影 中 影响 最 大 
的 ， 如 想 要 了 解 更 多 ， 可 以 访问 : 
http: //baike. baidu. com/view/301981. htm. 
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在 一 台 计 算 机 上 一 起 探索 茶 个 数据 集 的 两 个 人 之 间 存 在 一 个 基础 
问题 : 只 有 一 个 人 有 鼠标 。 虽 然 其 中 一 个 点 击 “ 过 滤 ” 可 能 完全 出 于 
直觉 ， 但 是 男 一 个 用 户 可 能 无 法 追踪 发 生 了 什么 事情 。 这 一 点 介 于 探 
索 和 展示 之 间 : 动画 的 一 个 主要 目标 是 促使 第 二 个 用 户 能 够 跟 上 第 一 
个 用 户 做 出 的 改动 ; 但 是 ， 第 一 个 用 户 可 能 并 不 清楚 自己 想 要 做 什 
么 。 动 画 可 以 是 多 个 可 视 化 之 间 的 一 种 过 渡 ， 使 得 第 二 个 人 或 者 是 
一 个 观众 ) 能 够 跟 上 。 在 过 去 几 年 ， 我 们 一 直 在 答 试 以 不 同 的 方式 来 
显示 数据 转换 和 对 已 知 图 表 的 展现 ， 如 散 点 图 、 条 形 图 甚至 是 饼 图 。 














DynaVis 是 一 个 动画 可 视 化 框架 ， 我 们 采用 了 该 框架 。Jeff 
Heer， 现 在 是 斯 坦 福 的 教授 ， 他 暑期 对 我 们 做 了 访问 ， 使 我 们 有 机 会 
对 很 多 可 能 的 应 用 方式 进行 了 尝试 。 在 他 发 表 的 论文 中 比较 详细 地 描 
述 了 这 次 讨论 ( (Her 和 Robertson 2007) 。 


在 DynaVis 框 架 中 ， 每 个 条 形 栏 、 每 个 点 或 每 条 线 都 代表 三 维 空间 
中 的 一 个 对 象 ， 因 此 我 们 可 以 让 本 章 前 面 描述 的 所 有 转换 平滑 运动 。 
很 多 转换 都 很 清晰 : 举 个 例子 ， 从 散 点 图 中 过 滤 一 个 点 ， 只 需要 把 这 
个 点 隐 去 。 但 是 ， 在 一 些 情况 下 可 以 用 更 为 有 趣 的 方式 实现 : 展示 类 
型 变化 的 ， 在 茶 个 时 刻 有 多 个 改变 同时 发 生 的 。 当 展现 改变 时 ， 我 们 
尽力 遵守 几 条 基本 原则 。 以 下 是 最 重要 的 两 条 : 











一 次 做 一 件 事 





确保 可 视 化 不 需要 同时 做 出 多 个 变化 。 这 意味 着 该 可 视 化 被 分 解 
成 了 多 个 步 又， 每 个 阶段 可 以 确保 在 下 一 步 开 始 之 前 已 经 完成 。 


确保 有 效 映射 





在 每 一 步 的 任意 时 刻 都 需要 确保 可 视 化 是 有 意义 的 ， 即 确保 存在 
一 个 从 数据 到 可 视 化 的 映射 。 举 个 例子 ， 对 条 形 图 的 条 形 栏 进行 重 命 
名 将 会 是 无 效 的 : 映射 的 基础 是 每 个 条 形 栏 代表 一 个 x 轴 值 。 





图 19-7 是 将 条 形 图 转换 为 饼 状 图 的 首次 尝试 。 通 过 这 次 转换 发 现 
了 很 多 积极 方面 。 举 个 例子 ， 条 形 图 的 各 个 条 形 栏 不 会 每 次 全 部 移 
动 ， 因 此 人 眼 能 够 很 容易 地 跟 上 运动 ， 而 在 动画 过 程 中 条 形 栏 保持 其 
特征 值 不 变 。 虽 然 在 条 形 栏 因为 运动 而 互相 交付 时 存在 一 些 问 题 ， 但 
它们 可 以 按照 平滑 轨迹 运动 ， 这 样 预测 轨迹 将 在 哪里 结束 也 是 可 行 
的 。 最 后 ， 动 画 制作 过 程 进行 了 良好 的 分 解 : 所 有 的 模子 首先 会 全 部 
生成 好 ， 然 后 才 组 合成 一 个 完整 的 饼 状 图 。 


























但 是 ， 这 种 可 视 化 有 一 个 非常 大 的 缺陷 。 条 形 栏 的 长 度 被 换算 成 
模子 的 周 长 ， 因 此 ， 条 形 栏 越 长 ， 其 对 应 的 模子 的 周 长 也 越 长 。 但 
是 ， 在 最 终 的 饼 图 中 ， 长 度 越 长 的 条 形 栏 ， 则 其 对 应 的 攀 子 将 更 宽 。 
这 意味 着 条 形 栏 将 变 得 又 宽 又 长 ， 或 者 又 窜 又 短 。 这 反 过 来 意味 着 可 
视 化 并 没有 适应 于 一 个 恒定 规则 (如 “像素 数 和 数据 值 成 比例 ”》。 





由 此 可 以 引出 下 一 个 原则 : 


保持 不 变 








虽然 第 一 条 规则 提 到 了 数据 元 素 和 显示 标志 之 间 的 关系 ， 但 是 该 
规则 限定 的 是 数据 值 和 可 视 化 之 间 的 关系 。 如 果 数 据 值 不 变 ， 则 在 整 
个 可 视 化 过 程 中 系统 应 该 保持 这 些 值 不 变 。 举 个 例子 ， 如 果 每 个 条 形 
栏 的 高 度 和 与 其 对 应 的 数据 点 的 值 一 致 ， 条 形 栏 应 该 在 动画 中 保持 相 











图 19-8 中 的 更 为 成 功 的 条 形 图 和 饼 图 动画 阐明 了 这 两 个 原则 。 该 
图 说 明了 绘图 实体 (条 形 栏 、 折 线 或 者 模子 ) 和 底层 数据 之 间 的 一 一 
对 应 关系 。 编 排 方 式 从 未 改变 :最 左边 的 条 形 栏 (“A”) 对 应 最 左边 
的 饼 图 切片 (也 是 用 “A” 表 示 ) 。 不 变量 对 应 于 条 形 图 的 各 个 条 形 栏 
的 长 度 ， 它 和 数据 值 保 持 一 致 。 尽 管 我 们 不 准备 在 这 里 详细 说 明 从 条 
形 图 到 折线 图 的 转换 ， 但 是 ， 实 际 转换 时 也 遵循 了 相同 的 原则 :最 左 
上 方 条 形 栏 收缩 成 一 条 折线 之 后 ， 将 仍 保留 在 最 左上 方 。 














Al 19-7: 条 形 图 到 人 饼 图 的 不 太 成 功 的 动画 : 条 形 图 中 的 较 长 的 条 形 
栏 在 饼 图 上 变 成 了 又 胖 又 长 的 模子 ， 短 条 形 栏 变 成 了 又 瘦 又 短 的 模 
子 ; 然后 所 有 的 模子 组 合 在 一 起 形成 了 一 张 饼 图 ( 见 彩 图 166) 


下 e > © © r s 


Ca 
Ae 


19-8: 条 形 图 到 饼 图 的 相对 比较 成 功 的 动画 ;条 形 栏 的 长 度 保 持 
不 变 ， 首 先 变 成 浙 形 ;其 次 合 在 一 起 成 为 一 个 坏 ， 最 后 组 合成 为 一 张 








饼 图 ( 见 彩 图 167) 


另外 一 种 有 趣 的 状况 促使 我 们 在 可 视 化 中 引入 卡通 中 的 分 解 概 
念 。 在 GnuTellaVision 可 视 化 中 ， 我 们 可 以 在 每 个 运动 中 重新 定位 中 
心 ， 但 是 在 DynaVis 可 视 化 中 ， 把 一 次 转换 分 解 成 两 个 步骤 更 有 意义 。 
比如 ， 在 每 个 例子 中 ， 我 们 保证 每 次 只 改变 一 种 属性 : 














为 了 对 条 形 图 的 数据 集 进 行 过 小 ， 我 们 首先 删 挥 不 会 用 到 的 条 形 
栏 ， 然 后 去 挥 对 这 。 些 条 形 栏 的 排序 。 如 果 不 对 数据 进行 过 小， 我 们 
需要 为 增加 的 条 形 栏 提供 空间 ， 相 应 地 ， 条 形 栏 将 会 变 高 。 


为 了 拉 长 或 压缩 一 个 条 形 栏 ， 如 当 数 据 变化 时 ， 我 们 可 能 需要 改 
变 轴 。 想 象 把 条 形 。 图 的 各 个 点 的 值 从 (1，2，3，4，5) 变 成 A, 
2, 10, 4, 5) 一 一 y 轴 当然 应 该 增长 来 适应 新 的 值 。 如 果 我 们 先 增 大 
条 形 栏 ， 那 它 将 会 扩展 到 屏幕 外 面 ; 那么 ， 我 们 必须 在 改变 条 形 栏 前 
改变 轴 。 





当 对 选中 的 一 些 条 形 栏 进行 排序 时 ， 如 果 立 即 对 它们 进行 排序 会 
导致 所 有 的 条 形 栏 。 马 上 通过 中 心 。 这 很 让 人 困惑 : 很 难 区 分 各 个 条 
形 栏 。 稍 微 降低 条 形 栏 的 调整 速度 ， 它 们 将 在 很 短 的 时 间 内 分 逐渐 分 
开 ， 我 们 发 现 这 种 排序 方式 要 更 为 清晰 。 


但 是 ， 分 解 并 不 总 是 适当 的 。 在 Heer 和 Robertson 的 项 目 报告 
(2007 年 ) 中 ， 他 们 发 现 一 些 动 画 分 解 之 后 变 得 更 难 理解 了 。 特 别 


th, TEE RBA MORAN a AAI, ARRESE ve 
进行 自 适应 的 调整 ， 图 形 的 变化 很 不 明显 甚至 难以 观察 。DynaVis 可 视 
化 尝试 对 转换 过 程 进行 分 解 : 首先 将 各 个 分 段 抽取 出 来 以 外 部 或 内 部 
环 的 形式 展现 ， 对 它们 的 大 小 进行 调整 ， 然 后 再 将 它们 合并 成 为 一 整 
张 圆 环 图 或 者 饼 图 。 虽 然 这 使 得 变化 更 明显 ， 但 是 它 增 加 了 一 种 行 
为 ， 而 这 种 行为 潜在 来 看 也 有 可 能 令 人 感到 困惑 。Heer 和 Robertson 同 
时 收集 了 定性 结 末 和 定量 结果 。 定 量 结 果 ， 即 有 多 少 用 户 喜欢 动画 ; 
定性 结果 ， 即 找 出 哪些 动画 能 够 使 用 户 最 为 准确 地 回答 问题 。 他 们 发 
现 ， 使 用 动画 方式 时 ， 用 户 会 更 易于 回答 取 值 随时 间 变 化 的 问题 此 
外 ， 分 成 多 个 阶段 但 每 个 阶段 只 有 一 种 转换 的 动画 比 那 些 同时 执行 了 
很 多 种 转换 的 动画 的 效果 要 好 得 多 。 











基于 这 些 原则 ， 显 然 这 类 动画 更 有 可 能 有 利于 帮助 用 户 理解 转 
Be: 相 比 于 演讲 者 抛 出 一 系列 图 表 并 强迫 观众 适应 一 个 又 一 个 的 约 灯 
请 ，DynaVis 的 框架 允许 用 户 在 整个 过 程 中 都 保持 集中 。 


动画 原则 





关于 动画 的 原则 ， 已 经 有 一 些 有 益 的 尝试 。Tversky、Morrison 和 


Bétrancourt (2002) 在 他 们 论文 的 最 后 给 出 了 两 条 通用 的 指导 原 


则 : 


可 视 化 应 该 保持 一 至 性 和 易 理 解 性 。 前 者 意味 着 屏幕 上 的 标志 必 


须 总 是 和 底层 数据 相关 联 。 后 者 表示 可 视 化 必须 易于 理解 。 我 们 前 面 
给 出 的 几 条 原则 也 在 这 两 条 原则 的 范畴 之 内 。Heer 和 Robertson (2007 
年 ) 对 DynaVis 框 架 的 可 视 化 的 讨论 中 另外 给 出 了 一 些 相关 的 指导 原 


则 ， 


论 ， 


pr - 
给 


Zongker 和 Salesin (20034F) 在 幻灯 片 中 给 出 的 是 动画 相关 的 讨 
Freidrich 和 Eades (2002 年 ) 给 出 的 是 图 形 相 关 的 讨论 。 





我 们 在 本 章 中 已 经 讨论 过 的 原则 如 下 : 


分 段 展 示 


一 次 性 转换 太 多 会 分 散人 们 的 注意 力 。 如 果 可 以 每 次 只 改变 一 件 


， 那 就 只 改变 一 件 事 。 为 一 方面 ， 有 时 多 个 变化 必须 同时 发 生 ， 这 
时 ’ 


可 以 将 它们 分 解 为 多 个 步骤 逐步 展示 。 


动画 造成 困扰 的 可 视 化 都 是 因为 用 户 难以 跟踪 变化 。 举 个 例子 ， 
个 条 形 图 增加 一 个 条 形 栏 并 不 会 困扰 用 性 整个 集合 可 以 平滑 变 





动 ) ， 而 在 条 形 栏 中 另外 增加 一 个 序列 就 可 能 让 人 困惑 了 。 但 是 ， 一 
个 四 方形 的 树 形 图 是 根据 尺寸 按照 贷 梦 的 方式 布局 的 ;一 个 矩形 的 变 
大 可 能 需要 改变 所 有 和 窍 形 的 位 置 ， 这 会 让 人 深 感 困惑 。 








必要 的 移动 





特别 地 ， 避 免 不 必要 的 移动 。 这 意味 着 我 们 希望 确保 移动 都 是 有 
意义 的 一 一 也 就 是 说 ， 我 们 将 只 对 变化 进行 动画 展示 。 总 的 来 说 ， 图 
像 应 该 总 是 可 理解 的 。 正 如 对 DynaVis 框 架 的 用 户 测试 结果 所 表明 的 ， 
过 渡 的 动作 一 一 即使 是 有 意义 的 动作 ， 也 会 让 人 困惑 。 


意义 的 移动 


移动 的 坐标 空间 和 类 型 应 该 是 有 意义 的 。 这 也 说 明了 之 前 提 到 的 
两 点 : 保留 有 意义 的 映射 并 维持 不 变性 。 





确定 自己 坚持 了 这 些 原则 会 帮助 你 确保 动画 是 在 沿 着 正确 的 方向 
演化 。 





结束 语 : 是 人 否 采用 动画 





在 本 章 ， 我 们 讨论 了 数据 展现 和 探索 之 间 的 区 别 、 可 视 化 中 可 能 
会 变动 的 各 种 层次 ， 以 及 一 些 确 保 动画 可 视 化 有 效 的 原则 。 





因此 ， 到 了 现在 这 个 阶段 ， 你 可 能 正在 盯 BAMA A, AE 
决定 是 否 要 采用 动画 的 方式 来 展示 。 本 章 不 断 询 问 的 问题 是 :该 动画 
的 功能 是 什么 ?如 果 是 为 了 使 用 户 在 多 个 视图 之 间 能 够 平滑 过 渡 ， 那 
么 很 可 能 是 有 用 的 。 如 果 用 户 是 为 了 比较 “之 前 ”和 “之 后 ”， 动画 








用 户 硕 望 理解 变化 的 原因 和 变化 的 具体 内 容 。 如 果 屏 幕 上 的 所 有 
东西 都 需要 移动 ， 能 够 目 动 切换 到 新 的 图 像 可 能 会 更 好 ; AT WE 
可 以 更 易于 奶 踪 不 同 之 处 。 最 后 ， 动 画意 味 痢 可 视 化 的 打印 会 更 困 
难 。 各 个 帧 应 该 都 是 有 意义 的 ， 这 样 用 户 可 以 捕获 并 融会 员 通 这 些 图 
片 。 动 画 增加 了 复杂 性 ， 该 复杂 性 应 该 有 所 回报 。 








扩展 阅读 


以 下 是 和 本 章 内 容 相 关 的 一 些 动画 数据 可 视 化 项 目 ， 你 可 能 会 希 


。 很 多 研究 人 员 开 始 使 用 Pad++ 中 的 缩放 和 拖 搜 作为 可 视 化 的 基本 
操作 ，Pad++ 是 一 个 在 大 空间 中 放置 数据 的 可 伸缩 架构 ( (Bderson#il 
Hollan 1994) 。 


e Scatterdice(Elmqvist、Dragicevic 和 Fekete 2008) 发 现 了 一 
种 通过 旋转 第 三 维度 来 实现 散 点 图 之 间 转 换 的 方式 。 


。 树 形 图 数据 可 视 化 包括 ConeTrees (Card、Robertson 和 
Mackinlay 1991) 、CandidTree (Lee 等 2007) 和 Polyarchy (Robertson 
等 2002) 。 研 究 人 员 通 过 缩放 “〈 扭 曲 ) 树 形 图 ( (Banch 和 Lecolinet 
2007) 来 探索 树 形 图 动画 和 在 三 维 空间 中 的 运动 ( (Badh、Carr 和 
Kljun 2005) 。 





。 图 像 布局 往往 用 动画 展示 布局 的 过 程 ; 在 过 去 10 年 中 ， 图 像 绘 
团 社 区 开始 考虑 基于 底层 数据 来 更 新 图 像 。 除 了 前 面 提 到 的 作品 
( (Fiedrich 和 Eades 2002) ， 还 有 GraphAEL (Erten 等 2003) 。 
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可 视 化 : 是 一 头 “ 大 象 ” 


可 视 化 ， 在 第 一 个 人 眼 里 是 图 形 图 表 和 投资 回报 率 (〔RI); 在 第 
二 个 人 眼 里 却 是 插图 、 生 动 的 隐喻 以 及 画 序 开 磋 ;在 第 三 个 人 眼 里 它 
只 是 奇妙 的 元 余 的 复合 词 : 信息 图 形 。 可 视 化 ， 这 个 术语 就 像 一 个 抽 
象 的 太 妃 糖 一 样 需要 人 们 不 断 咀嚼 、 反 复 品 味 。 它 就 像 三 个 盲人 摸 象 
的 故事 。 一 个 措 到 大 象 的 尾巴 ,说 “大 象 像 一 条 绳子 ”。 男 一 个 摸 到 
大 象 的 脚 ， 说 “大 象 像 一 柠 树 柱 ”。 第 三 个 人 摸 着 大 象 的 愉 子 ， 说 
“大 象 像 一 条 蛇 ”。 他 们 都 不 是 完全 错误 的 ， 但 是 也 没有 一 个 是 完 
正确 的 ， 因 为 没有 一 个 人 可 以 看 到 大 象 的 整体 ， 如 图 20-1 所 示 。 














可 视 化 只 是 你 能 够 看 到 的 茶 些 部 分 〈 全 部 ) 。 它 既是 整个 马赛 
bh, thE SATA 发 光 的 镶嵌 物 。 它 不 仅仅 是 图 表 ， 也 不 仅仅 是 视觉 
隐喻 ; 它 不 仅仅 是 取代 子弹 点 的 可 工作 的 图 形 设计 ， 也 不 仅仅 是 描绘 
思想 ;同样 ， 它 不 仅仅 是 数据 分 析 。 这 些 都 是 更 大 的 概念 中 的 一 小 
H's 


真正 优秀 、 美 丽 、 强 大 的 可 视 化 ， 即 触及 思想 和 内 心 深 处 的 可 视 
化 ， 不 仅仅 是 关于 图 像 、 快 照 和 通过 玻璃 窗 的 查看 ， 如 图 20-2 所 示 。 
强大 的 可 视 化 在 大 象 测试 中 能 够 通过 : 几乎 无 法 形容 ， 但 是 一 眼 就 能 





够 识别 。 本 章 将 讨论 这 头 “ 大 象 ” 的 方方面面 。 总 之 ， 这 些 讨论 将 有 
助 于 绘 出 一 幅 能 够 整体 上 清晰 描述 可 视 化 对 象 的 图 像 。 










TAN 


Dangerous 





Faly Bibles 
一 Ô - 
Elephants 








图 20-1: 总 是 还 有 更 多 





Experience 


A= Book Smarts 
B= Street smarts , 
C= Intemship involving the Copy mahae 


图 20-2: 知识 和 实践 齐头并进 


可 视 化 中 有 一 张 图 片 ， 还 有 一 条 信息 。 人 们 需要 “审问 之 ”、 
“ 慎 思 之 ”并 “ 明 辨 之 ”。 可 视 化 的 创作 者 们 也 因此 而 获得 了 更 长 的 
工作 时 间 。 质 量 是 主观 的 ， 而 美学 总 会 有 争议 一 一 但 是 内 在 的 艺术 性 
却 是 显而易见 的 ， 好 比 色 情 。 艺 术 是 只 有 当 你 看 到 时 才能 知道 ， 而 且 
无 法 提早 知道 ， 如 图 20-3 所 示 。 而 可 视 化 是 一 门 艺术 已 经 广 为 认 可 。 























图 20-3: 可 视 化 的 “局 然 大 悟 ” 时 刻 








可 视 化 实践 者 往往 语 于 创意 : TUT LEB a 
黑色 镜框 的 眼镜 。 当 然 ， 只 要 一 件 事情 被 贴 上 艺术 创作 的 标签 ， 其 进 
入 门槛 束 会 变 高 。 那 些 认 为 上 自己 不 具备 创造 力 以 及 从 未 认为 目 己 具有 
“创造 性 ”的 人 会 因此 而 回避 可 视 化 。 这 太 糟 糕 了 一 一 因为 你 不 需要 
成 为 Rembrandt， 只 要 你 有 一 些 想法 就 可 以 画 几 笔 并 能 为 人 们 所 了 解 。 














可 视 化 内 在 的 美 《 有 争议 的 ) 在 于 图 像 背后 的 思想 ;你 的 视网膜 
杆 和 视网膜 锥 看 到 的 线条 和 形状 所 要 说 明 的 概 您 。 从 技术 上 说 ， 只 要 
有 兢 土 ， 任 何人 都 可 以 进行 雕刻 ， 而 任何 人 只 要 有 可 以 可 视 化 表达 的 
思想 就 可 以 创建 可 视 化 ， 如 图 20-4 所 示 。 有 雕塑 或 可 视 化 的 质量 往往 都 
是 有 和 争议 的 。 任 何 艺术 品 或 图 像 的 质量 都 是 值得 商 椎 的。 














可 视 化 ， 从 观察 者 的 眼 里 得 到 思想 。 
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图 20-4: 不 要 超出 力所能及 的 范围 


有 一 个 小 程序 一 一 你 可 能 已 经 听 过 它 。 它 很 便宜 ， 几 乎 到 处 都 能 
见 到 ， 它 是 一 个 可 爱 的 中 间 管 理 件 工具 ， 能 把 可 视 化 辅助 想法 转换 成 
卡其 色 。 这 个 小 程序 就 是 PowerPoint， 把 可 视 化 转换 到 了 商业 领域 ， 
如 图 20-5 所 示 。 








Audience. Members who ca 


Bullet Points _ 


图 20-5: Power point= 自 相 矛 盾 用 语 





不 可 否认 : 可 视 化 是 吸引 人 的 。 希 望 别 人 忘记 你 讲述 的 内 容 的 村 
燥 乏 味 ? 如 果 你 在 大 学 中 教授 数学 ， 一 定 要 确保 在 你 的 讲稿 中 包含 了 
很 多 图 片 。 当 向 董事 会 、 一 位 潜在 客户 或 中 年 级 的 MBA 同 学 做 报告 时 ， 
如 条 没有 PowerPoint， 在 最 好 的 情况 下 会 被 认为 很 奇怪 ， 在 最 差 的 情 
况 下 会 被 认为 准备 不 充分 〈 见 图 20-6) 。 这 是 什么 原因 呢 ? 因为 可 视 
化 是 一 款 优秀 的 说 服 工 具 ， 说 服 是 销售 的 另外 一 种 表达 方式 。 














Work 


图 20-6: 想法 可 以 为 你 工作 


合并 、 收 购 、 谈 判 、 广 告 和 宣传 。 人 们 每 天 都 在 传递 商务 通信 信 
恩 。 我 的 餐巾 纸 在 这 里 。 这 是 我 在 刚刚 的 四 小 时 会 议 上 提出 的 战略 涂 
$5. 


眼见 为 实 。 相 信之 后 ， 人 们 才 会 认同 。 你 党 得 公司 总 部 、 政 治 
“ 王 间 ”和 瘤 烛 的 教 芝 都 是 如 何 建立 起 来 的 ? 


可 视 化 : 是 永恒 的 


法 国 那 些 著 名 的 洞 入 壁画 不 是 待 做 事情 列表 、 句 子 、 单 词 、 甚 至 
也 不 是 字母 。 它 们 是 图 像 。 几 千年 前 ， 象 形 字 中 的 每 个 字符 都 是 用 图 
像 表 示 的 。 现 在 的 书面 汉语 也 是 如 此 。 我 们 在 学 会 单词 之 前 先 学 会 了 
微笑 。 语 言 再 强大 ， 也 比 不 上 可 视 化 直接 或 形象 ， 如 图 20-7 所 示 。 
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React on 
图 20-7: 一 样 的 老 故事 ， 不 一 样 的 作者 


照片 、 油 男 或 者 是 天 气 预报 的 绿色 屏幕 上 的 地 图 ， 比 起 文字 ， 可 
以 让 我 们 学 得 更 多 更 快 。 我 们 可 以 连续 听 几 个 小 时 关于 极度 穷困 的 介 
绍 故 事 ， 或 者 可 以 对 着 一 幅 一 只 秃 座 在 一 个 瘦弱 的 小 孩 面前 徘徊 的 图 
片 持续 几 分 钟 。 不 论语 言 表达 多 么 强大 ， 使 用 图 像 可 以 更 快 地 分 享 故 


事 。 虽 然 我 们 已 经 发 展 成 为 了 先进 的 社会 ， 已 经 能 够 运用 复杂 的 词 
汇 、 语 言 以 及 修女 们 在 我 们 孩童 期 间 教授 的 那些 成 语 


但 是 ， 我 们 仍然 可 以 不 通过 语言 而 只 是 通过 图 片 进行 交流 ， 如 图 20-8 
所 示 。 


、 隐 喻 和 语法 ， 
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Instinct 
图 20-8: 眼见 为 实 


想象 一 下 : 古代 用 泥土 


画 的 洞穴 壁画 和 形状 。 没 有 梵文 ， 没 有 诗 
词 ， 没 有 PowerPoint。 


可 视 化 : 此 时 此 刻 


哪 一 种 含义 更 深刻 : 名 字 还 是 标识 ? 人 们 如 何 认 出 你 : 是 你 的 头 
像 还 是 你 的 简历 ? 不 动产 的 最 珍贵 之 处 在 哪里 : 是 一 个 著名 的 网 址 
C CUL) 还 是 在 一 个 著名 邮政 区 域 的 一 个 地 段 ? 今天 ， 标 识 可 以 讲述 史 
诗 故 事 。 屏 幕 名 字 等 同 于 人 们 的 映 份 。Web 人 致力 于 资助 创新 ， 购 买 牧 
场 、 岛 屿 和 街区 。 





与 以 往 相 比 ， 我 们 现在 是 在 信息 海洋 中 畅游 。 我 们 在 对 数据 进行 
清洗 。 每 天 生成 的 信息 是 人 类 世界 从 未 有 过 的 或 者 从 未 期 望 能 够 理解 
的 ， 如 图 20-9 所 示 。 因 此 ， 我 们 把 可 视 化 作为 收集 、 浓 缩 和 传递 信息 
的 工具 。 
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图 20-9: 水 ， 还 是 水 ， 到 处 都 是 水 


视觉 处 理 数 据 。 视 觉 把 大 量 矮 胖 、 笨 拙 、 黑 色 和 白色 的 电子 表格 
压缩 成 光滑 、 彩 色 的 图 形 。 视 觉 能 够 揭示 大 量 数据 中 的 模式 ;它们 运 
用 复杂 、 难 以 理解 的 理论 ， 可 以 优雅 地 解释 数据 ， 如 图 20-10 所 示 。 把 
数据 点 想象 成 水 分子。 可 视 化 能 够 生成 “雪花 ”: 它 是 对 很 多 小 的 信 
奶 片 的 华丽 、 有 机 的 编排 布局 。 








vy 


当 我 们 想 要 弄 懂 身边 的 信息 海洋 时 ， 我 们 需要 制作 可 视 化 。 这 是 
言 轧 时代。 因此 ， 也 可 以 次， 这 也 是 一 个 可 视 化 时 代 。 


A B 


A= Dollars B= Data Punts — 
C= Problems we wish we had 


图 20-10: 使 用 任何 一 种 方式 获取 你 所 需要 的 


可 视 化 : 是 编码 的 








字母 代表 发 音 ; 文字 代表 思想 。 我 们 组 合 整理 句子 以 讲述 故事 。 
你 的 汽车 引擎 四 的 装饰 能 够 揭秘 你 的 收入 水 平 。 皱 纹 能 揭秘 你 的 年 
龄 。 我 们 通过 编码 来 通信 一 一 昕 觉 、 视 觉 、 触 觉 和 社会 性 。 即 使 我 们 
的 DNA 都 是 一 种 编码 一 一 我 们 从 头 开始 构建 ， 通 过 数据 的 表现 位 来 通 
信 ， 如 图 20-11 所 示 。 可 视 化 只 是 为 一 种 编码 通信 方式 ， 图 形 的 轴线 是 
关联 简写 ， 编 辑 卡 通 字 符 代 表意 识 形 态 。 摄 影 和 绘画 表示 历史 。 
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图 20-11: IZIRIZIR, HEIER 


由 于 可 视 化 变 成 了 更 大 的 调查 领域 一 一 在 大 学 、 艺 术 工 作 室 和 留 
言 板 一 一 符号 学 的 概念 将 会 被 人 们 更 频 蚂 地 提 及 。 妆 我 们 更 仔细 地 查 
看 标识 和 符 写 ， 我 们 会 发 现 使 用 可 视 化 进行 的 交流 和 用 文字 的 几乎 一 
样 多 。 我 们 使 用 符号 来 表达 自己 ， 从 竖 起 一 个 手指 向 闻 红 娄 的 司机 友 
出 警告 、 到 心理 爱情 短信 、 到 使 用 日 益 陈 腐 的 表情 符号 。 








隐喻 、 成 语 、 内 在 的 笑话 〈 或 者 是 文学 典故 ， 如 果 你 是 英语 专 
业 ) 。 我 们 的 交流 涉及 符号 的 很 多 层面 ， 每 次 交谈 都 需要 对 很 多 编码 
进行 翻译 。 可 视 化 是 表现 轧 想 的 为 一 种 方式 ; 是 力 一 种 不 包含 很 多 秘 
密 的 编码 方式 。 可 视 化 展示 越 清 晰 ， 能 够 破解 该 编码 的 人 就 越 多 。 














帮派 纹身 、Rorschach 测 试 译 || ， 包含 很 多 解释 的 各 种 艺术 作品 
一 一 这 些 只 是 那些 包含 很 多 隐藏 的 《有 时 深远 的 ) 涵义 的 众多 可 视 化 
中 的 几 个 例子 ， 如 图 20-12 所 示 。 





Rules 

-or- 
Masonic. Ciphets 
图 20-12: 秘密 和 /或 社会 


[1] Rorschach 测 试 指 的 是 根据 人 们 对 墨 旋 图 案 的 反应 来 分 析 其 性 格 的 
实验 。 


可 视 化 : 是 清晰 的 





可 视 化 的 美丽 之 一 在 于 其 简单 性 。 纯 粹 的 清晰 ! 无 比 的 清晰 ! 超 
级 简单 ! 图 像 可 以 为 演讲 、 专 题 文章 和 年 度 报告 设置 基调 。 我 们 期 
待 、 碍 看 并 理解 。 从 第 一 眼 到 “ 啊 哈 ， 我 明日 啦 ! ”， 只 是 经 过 了 几 
秒 钟 的 时 间 。 








我 们 并 非 总 是 有 时 间 来 训 析 池 义 或 读 10 页 的 总 结 。 我 们 想 要 得 看 
一 个 图 形 ， 碍 看 一 年 又 一 年 的 结果 。 图 像 非常 适合 快速 表达 信息 。 清 
晰 可 以 使 我 们 能 够 理解 并 坚持 。 模 校 两 可 需要 人 花费 时 间 去 琢磨 一 一 我 
们 没有 那么 多 时 间 。 





我 们 见 到 一 个 人 时 ， 在 最 开始 的 10 秒 内 了 解 到 的 信息 要 比 花 费 了 
几 个 小 时 使 用 百度 搜索 到 的 信息 还 要 多 得 多 。 我 们 可 以 通过 封面 来 评 
判 一 本 书 ， 通 过 外 观 评判 一 赠 房 子 。 看 到 自由 女神 像 上 缠绕 着 弘 索 的 
图 片 ， 我 们 能 够 推测 出 存在 着 不 公正 的 现象 。 我 们 看 到 总 统 的 竞选 海 
报 上 绘制 着 魔鬼 的 角 ， 就 知道 有 人 不 喜欢 他 。 视 党 所 传递 的 信息 非常 
清晰 明确 ， 如 图 20-13 所 示 。 但 只 是 由 于 该 信息 是 显而易见 的 ， 可 能 并 
不 总 是 真实 的 。 




















Bathrooms 





A= Evaluation ( and sometimes B) 
B= Confusion (and Sometimes A) 
图 20-13: 都 是 场景 
我 们 不 信任 包含 偏见 的 新 闻 来 源 。 当 一 个 提议 听 起 来 很 不 错 ， 其 
书面 材料 往往 都 很 密 很 长 ， 不 利于 我 们 。 广 告 的 真实 性 一 直 不 只 是 个 
神话 。 当 凝视 一 个 美丽 的 可 视 化 时 要 记 住 这 一 点 。 其 信息 可 能 很 清晰 


明显 ， 但 是 其 背后 的 动机 可 能 需要 人 花费 更 多 的 时 间 来 观 罕 〈 见 图 20- 
14) 。 














可 视 化 : 是 可 学 习 的 


任何 形式 的 信息 展示 ， 都 是 面 回 所 有 人 的 ， 供 所 有 人 创造 和 消费 
的 。 从 你 的 发 型 到 外 套 颜 色 ， 你 都 在 发 送 视觉 信号 和 传达 视觉 信息 。 
每 个 人 都 可 以 拿 起 一 支 笔 ， 在 墙 上 或 纸 上 画 一 条 线 。 类 似 地 ， 像 素 可 
以 重新 布局 ， 来 表达 任何 会 用 电脑 的 人 的 想法 。 








A=love B- Advertising C= Money 


图 20-14: 问 问 自己 为 什么 要 看 眼前 的 事物 


你 不 必 会 讲 意 大 利 语 也 可 以 欣赏 米 开 上 明基 罗 的 艺术 品 。 任 何 参观 
多 译 让 的 人 ， 都 深 受 局 及。 同样 ， 竖 儿 一 字 不 识 ， 也 可 以 识别 出 人 脸 


和 表情 。 





就 像 通过 学 习 单词 来 掌握 阅读 和 沟通 ， 通 过 实践 成 为 专业 的 视觉 
沟通 者 也 是 可 能 的 。 绘 画 是 在 纸 上 把 情景 翻译 出 来 的 能 力 一 一 属于 直 
接 翻 译 。 可 视 化 是 把 思想 表达 在 纸 上 一 一 采用 数据 ， 并 把 它 提 和 炼 成 一 
个 概念 。 不 要 把 这 二 者 混为一谈 。 思 考 过 程 是 不 同 的 ， 即 使 笔 纸 能 把 





这 两 项 技能 结合 起 来 。 思 想 ( 概 念 、 理 论 、 等 式 、 意 见 、 过 程 》 和 一 
篮 水 果 的 静物 画 表现 不 同 ， 如 图 20-15 所 示 。 


A=Good teacher 
B= Bad job 


C ompeten ce 


Experience 
图 20-15: 知道 越 多 ， 做 得 越 多 


符号 和 隐喻 可 以 是 非常 懒散 、 混 乱 的 描绘 方式 ， 但 依然 强大 且 清 
晰 。 记 下 下 一 次 你 在 窗 玻 璃 上 的 蒸汽 上 男 的 心 形 图 案 ， 如 图 20-16 上 所 
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A=Dream B= Reality C= Kesumé 


图 20-16: 你 的 所 作 所 为 决定 你 是 谁 


可 视 化 : 是 一 个 流行 语 





因此 ， 它 是 一 个 主题 吗 ( 见 图 20-17) ? 可 视 化 仅仅 是 席卷 商业 杂 
志 、 招 标书 和 学 科教 学 大 纲 的 最 新 的 流行 语 吗 ? 它 是 营销 人 员 为 了 听 
起 来 显得 智 意 而 吹捧 的 咏 一 个 流行 语 吗 ? 还 是 它 并 没有 那么 潮流 ， 而 
是 对 我 们 当前 的 数据 饱和 状况 的 一 个 反应 ? 





Never H ung"y 


图 20-17: 欢迎 来 到 因特网 





可 视 化 得 到 了 人 们 的 广泛 关注 : 它 帮 助人 们 处 理 信息 过 载 从 而 节 
约 时 间 ， 理 解 可 视 化 是 我 们 与 生 俱 来 的 能 力 。 精 心 设计 的 可 视 化 引 人 
注目 ， 看 起 来 美丽 优雅 ， 让 人 享受 。 而 且 有 非常 多 的 可 视 化 软件 可 以 
利用 ， 现 在 是 把 想法 变 成 图 像 的 最 佳 时 期 。 因 此 ， 看 起 来 可 视 化 的 流 
行 是 必然 的 : 我 们 需要 多 选 的 数据 越 多 ， 就 越 容易 把 数据 转化 成 图 
像 ， 也 越 容 易 把 图 像 和 文字 并 列 显 示 ， 我 们 越 想 说 服 别 人 提升 自己 ， 
在 我 们 里边 看 到 的 可 视 化 就 越 多 。 














可 视 化 这 个 词 本 身 很 受 欢 迎 ， 其 思想 很 受 欢 迎 ， 其 应 用 也 很 受 欢 
迎 。 可 视 化 帮助 我 们 交流 。 它 能 够 促使 进 联 系 。 只 要 这 两 个 观点 是 正 
确 的 ， 我 们 只 需要 祈祷 可 视 化 会 同 “ 甲 充 虫 ”一 样 受 欢迎 ， 而 不 是 像 
“顽童 合唱 团 ”( (Mnkees) 一 样 ， 如 图 20-18 所 示 。 





„Pet Projed Workhorse. 


. Pet Rock 


Usefulness | 





P opvul ar ity 


图 20-18: 你 参与 的 是 一 场 变革 还 是 只 是 一 个 时 淹 ? 





艺术 和 业务 。 通 过 视觉 效果 ， 你 可 以 快速 、 有 力 且 充满 感情 地 和 人 们 
交流 。 即 使 你 并 不 觉得 自己 有 创意 ， 不 认为 自己 可 以 像 艺术 家 那样 ， 
你 依然 可 以 成 为 可 视 化 制作 人 员 ， 如 图 20-19 所 示 。 




















Can 
图 20-19: 借口 是 无 效 的 


正如 作家 通过 阅读 来 提升 它们 的 技术 ， 可 视 化 制作 人 员 可 以 通过 
观察 来 增强 他 们 的 技能 。 他 们 专注 地 查看 ， 紧 紧 盯 住 别人 宁可 忽略 的 


某 些 地 方 。 他 们 不 仅仅 查看 图 片 ， 而 且 观 察 事件 。 他 们 紧 紧 盯 住 事件 
的 起 因 、 影 响 、 动 机 和 手段 。 有 时 ， 他 们 闭 上 眼睛 ， 思 考 如 何在 一 个 
Word 文 档 中 说 明 宇宙 ， 或 者 如 何 通 过 邮件 说 明 自 己 的 感情 有 多 深 ， 或 
者 如 何在 一 个 幻灯 片 里 说 明 自 己 的 业务 范畴 ， 如 图 20-20 所 示 。 








Hogs ess 
Vis es 


图 20-20: 看 得 更 贴切 、 更 深远 


罕 是 可 视 化 的 第 一 步 ， 而 且 此 时 此 刻 你 正在 观察 。 如 有 果 你 可 以 
思考 它 ， 你 就 可 以 对 它 进 行 可 视 化 。 如 果 你 可 以 对 它 进行 可 视 化 ， 你 
就 可 以 分 至 它 。 而 如 末 你 可 以 分 享 它 ， 你 就 可 以 改变 这 个 世界 。 





但 是 首先 : 请 环顾 一 下 你 的 四 周 。 机 会 正在 等 着 你 。 
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Dennis Adderton 是 一 名 具有 科研 仪器 设计 背景 的 电气 工程 师 。 他 
目前 是 加 州 大 学 对 巴巴 拉 分 校 的 AlloSphere 项 目的 研究 工程 师 ， 并 师 
从 JoAnn Kuchera-Morin 博 士 学 习 媒 体 艺 术 。 


Basak Alper 是 加 州 大 学 对 巴巴 拉 分 校 的 媒体 艺术 和 技术 项 目的 博 
士 候 选 人 。 她 在 过 去 5 年 致力 于 计算 机 图 形 和 可 视 化 。 她 的 研究 成 果 是 
专注 于 以 人 类 为 中 心 的 虚拟 现实 环境 中 的 多 模式 可 视 化 。 


Nick Bilton 是 《纽约 时 报 》 的 Bits 博 客 的 技术 作家 带头 人 。 他 在 
设计 、 用 户 界面 、 新 闻 、 硬 件 改装 、 纪 录 片 和 编程 上 都 有 背景 经 验 。 
他 之 前 是 《纽约 时 报 》 研 发 实验 室 的 研究 人 员 ， 在 媒体 领域 探索 了 10 
年 之 久 。 除 了 在 《纽约 时 报 》 工 作 ，Nick 还 共同 成 立 了 
NYCResistor, NYCResistor 是 在 纽约 布鲁克 林 的 硬件 改装 空间 。 他 还 是 
纽约 大 学 交互 远程 通信 计划 的 兼职 教授 。 





Michael Driscoll 作 为 10 多 年 前 的 Human Genome Project 项 目 中 
的 一 名 软件 工程 师 ， 就 爱 上 了 数据 可 视 化 。 他 是 Dataspora 的 创始 人 兼 
首席 数据 科学 家 ， 在 旧金山 作为 分 析 顾 问 。Jonathan Feinberg 是 一 名 
计算 机 程序 员 ， 他 和 妻子 以 及 两 个 儿子 住 在 抹 省 的 Medford。 你 可 以 给 








他 mail: jdf@pobox. com， 尤 其 是 如 果 你 知道 在 布鲁克 林 的 Greenpoint 
的 波士顿 地 区 有 任何 泰国 餐厅 。 


Danyel Fisher 是 微软 研究 员 的 VIBE (可 视 化 和 交互 ) 团队 的 一 名 
研究 员 。 他 的 研究 兴趣 主要 是 信息 可 视 化 和 在 线 写 作 ， 以 及 如 何 联合 
使 用 可 视 化 。Danyel 在 2004 年 从 加 州 大 学 欧文 分 校 获得 博士 学 位 。 他 
过 去 的 研究 主要 是 有 反映 社会 计算 活动 ， 可 视 化 电子 邮件 信息 和 通信 ， 
并 通过 地 图 和 地 理 软 件 进行 着 色 。 他 是 图 形 绘画 软件 包 JUNG 的 作者 之 
一 ; 你 可 以 通过 以 下 网 址 访问 其 当前 的 项 目 : 


http: //research. microsoft. com/~danyelf. 

















Jessica Hagy 是 一 名 作家 、 演 讲 家 和 顾问 。 对 于 需要 表达 清晰 的 
公司 ， 她 可 以 把 模糊 、 复 杂 的 思想 提炼 成 “鲜美 的 ”视觉 “调味 
桨 ”。 她 是 著名 的 网 站 thisisindexed. com 的 作家 ， 她 的 作品 在 《纽约 
时 报 》、BBC 杂 志 在 线 、《Paste》、《 高 尔 夫 文摘 》、《 红 皮 书 》、 
《纽约 杂志 》、 加 拿 大 《国家 邮 报 》、《 卫 报 》、《 时 代 周 刊 》 以 及 
很 多 其 他 新 老 媒体 上 刊 出 。 


Todd Holloway 对 于 信息 可 视 化 、 信 息 检 索 、 机 器 学 习 、 数 据 控 
据 、 网 络 科 学 以 及 人 工 智能 非常 痴迷 。 他 曾 束 读 过 Grinnell College 


大 学 和 印第安 纳 大 学 。 


Noah Iliinsky 伦 了 近 几 年 的 时 间 在 思考 创建 信息 可 视 化 图 表 和 其 
他 类 型 的 有 效 方式 。 他 同时 在 设计 界面 和 交互 ， 都 是 从 功能 和 以 用 户 
为 中 心 的 角度 。 在 成 为 设计 师 之 前 ， 他 做 了 几 年 的 程序 员 。 他 在 华 盛 
顿 大 学 获得 通信 技术 硕士 学 位 ， 从 Reed 学 院 获 得 学 士 学 位 。 他 的 博客 


是 http: //ComplexDiagrams. com. 








Eddie Jabbour 是 纽约 城市 的 KICK 设计 公司 AY BGR A A Gl E o 
在 过 去 20 年 ，KICK 设 计 公司 已 经 和 世界 上 最 知名 的 品牌 共同 通过 视觉 
冲击 创造 欣喜 和 创新 。 


Haru 本 是 一 个 雕塑 家 、 路 行业 的 艺术 家 和 研究 人 员 ， 通 过 人 工 生 
命 创造 世界 作为 计算 艺术 来 探索 艺术 生活 的 主题 。 目 前 ， 她 是 加 州 大 
学 圣 巴 巴 拉 分 校 的 博士 候选 人 ， 是 加 州 纳 米 系 统 研究 院 的 AL11oSphere 
项 目 组 的 研究 员 。 她 在 世界 各 地 的 展览 会 和 艺术 节 展 示 了 计算 设备 、 
数字 雕塑 、 虚 拟 建 筑 、 视 频 设 备 、 雕 塑 物体 和 三 维 动画 ， 包 括 ISEA、 
EvoWorkshops、SIGGRAPH 以 及 相应 的 出 版 物 。 她 还 完成 了 一 半 的 协作 
研究 项 目 和 虚拟 生态 系统 “人 工 自 然 ”， 探 索 扩大 媒体 艺术 走向 世界 
的 艺术 ， 网 址 是 : http: //haru. name. 





Valdean Klump 居 住 在 加 州 的 上 日 金山 ， 是 Google 创 意 实 验 室 的 作 


Ro 


Aaron Koblin 是 加 州 旧金山 的 艺术 家 ， 他 由 于 数据 可 视 化 项 目 而 
H, U “Sheep Market” (Æ) ~ “Ten Thousand Cents” 
(一 万 个 人 硬币 ) 和 Radiohead 的 “House of Cards” 音 乐 视频 。 目 前 ， 
他 是 Google 创 意 实 验 室 的 技术 带头 人 。 


Robert Kosara 是 夏 洛 特 、 北 卡罗来纳 州 的 计算 机 科学 的 助理 教 
授 。 他 的 研究 兴趣 包括 分 类 数据 可 视 化 、 可 视 化 数据 通信 和 可 视 化 的 
理论 基础 。Robert 的 网 站 是 : http: //EagerEyes. org. 


Valdis Krebs 是 俄 辫 俄 州 殉 里 夫 兰 市 0rgnet. com 网 站 的 首席 科学 
。0rgnet. com 网 站 为 公司 组 织 、 社 区 提供 社交 网 络 分 析 软 件 和 服 
务 ， 并 提供 咨询 。 


St 


JoAnn Kuchera-Morin 博 十 是 一 名 作曲 家 ， 她 是 加 州 大 学 圣 巴巴 拉 
分 校 的 媒体 艺术 区 技术 专业 以 及 音乐 专业 的 教授 ， 研 究 多 模式 媒体 系 
统 、 内 容 和 配套 设施 的 设计 。 她 超过 25 年 的 数字 媒体 领域 带头 人 经 
验 ， 在 加 州 大 学 圣 巴 巴 拉 分 校 创立 、 设 计 和 开发 了 一 个 数字 媒体 中 
心 ， 她 目前 的 最 佳 设计 是 Allosphere 研 究 实验 室 ， 把 三 层 的 金属 球体 
置 于 无 回声 的 工作 室内 ， 其 设计 目的 是 为 了 对 多 维 数据 集 进 行 沉浸 
式 、 交 互 式 的 科学 和 艺术 探索 。JoAnn Kuchera-Morin 博 士 是 
Allosphere 研 究 中 心 主任 。 


~ 











Andrew 0dewahn 是 0”Reilly 媒 体 的 商务 发 展 部 门 主任 ， 他 帮助 那 
些 热衷 于 新 领域 的 观众 技术 爱好 者 参与 公司 活动 。 他 发 表 了 两 本 关于 
数据 库 开 发 的 著作 ， 是 tagcaster. com 的 创始 人 ， 纽约 大 学 的 斯 特 恩 商 
学 院 的 研究 生 ， 是 Appalachian Trail 的 徒步 旅行 者 。 


Anders Persson 博 士 是 瑞典 Linkoping 大 学 的 医学 图 像 科 学 和 可 视 
化 中 心 的 副教授 和 主任 ( (CIV; http: //www. cmiv. liu. se) 。 该 中 心 
专注 于 多 学 科 项 目 内 的 前 线 研究 ， 为 今后 的 临床 问题 提供 解决 方案 。 
其 任务 是 为 卫生 健康 和 医学 研究 应 用 的 图 像 分 析 和 可 视 化 制定 方法 和 
es 


Adam Perer 博 士 是 以 色 列 海 法 ( (Hifa)IBM 研 究 院 的 研究 科学 家 。 
他 的 研究 兴趣 包括 设计 新 的 可 视 化 技术 来 帮助 人 们 理解 复杂 数据 。 可 
以 通过 其 网 站 访问 更 多 信息 : http: //perer. org/. 


Lance Putnam 是 一 位 作曲 家 和 研究 人 员 ， 调 查 计算 机 生成 的 声音 
和 图 像 环境 下 的 频率 和 空间 的 关系 。 他 目前 是 加 州 大 学 圣 巴 巴 拉 分 校 
( USB) 媒体 艺术 和 技术 专业 的 博士 候选 人 。 他 拥有 麦迪 之 威斯康星 州 
大 学 的 电子 和 计算 工程 专业 的 学 士 党 位， 以 及 UCSB 的 电子 音乐 和 声音 
设计 的 人 硕士 学 位 。 他 被 选 为 8 个 国际 学 生 之 一 ， 在 纽约 IBM T. J. Watson 
研究 中 心 的 2007 年 新 兴 多 媒体 会 议 展示 其 在 媒体 信号 处 理 方 面 的 研 
完 。 他 的 工作 成 果 “S Phase” 曾 在 北 爱 尔 兰 贝尔 法 斯 特 的 2008 年 国际 
计算 机 音乐 会 议和 2009 年 意大利 Parma 的 Traiettorie 节 日 上 展示 。 


Maximilian Schich 是 一 名 DFG 的 艺术 历史 学 家 ， 作 为 BarabasiLab 
实验 室 的 访问 研究 科学 家 一 一 在 波士顿 东北 大 学 的 复杂 网 络 研究 中 
心 ， 他 和 网 络 科 学 家 协作 ， 研 究 艺术 历史 和 考古 学 的 复杂 网 络 。 
Maximilian 在 2007 年 获得 博士 学 位 ， 有 10 多 年 的 顾问 咨询 经 验 ， 致 力 
于 艺术 研究 的 网 络 数据 ， 作 为 项 目 合 作者 、 用 户 、 程 序 员 和 客户 四 者 
之 间 的 经 纪 人 。 他 花 了 几 年 的 时 间 致 力 于 Projekt Dyabola 项 目 、 
Bibliotheca Hertziana (艺术 历史 Max-Planck 研 究 所 ) ~ Munich 
Glyptothek 和 Zentralinstitut für Kunstgeschichte。 可 以 通过 以 下 


网 址 查 到 更 多 : http: //www. schich. info. 


Matthias Shapiro 是 一 名 软件 设计 师 ， 并 且 是 基于 犹他 州 盐城 的 
言 息 可 视 化 爱好 者 。 他 通过 Silverlight 创 建 了 绝 大 部 分 的 可 视 化 ， 并 
兼职 作为 信息 可 视 化 的 独立 的 传播 者 ， 辐 参议 员 、CNN 主 持 人 、 微 软 会 
议 参与 人 以 及 任何 “不 够 智慧 逃避 其 发 言 的 人 ”来 说 明 可 视 化 的 重要 
VE 


Julie Steele 是 0 ”Reilly 媒 体 的 一 名 编辑 ， 她 对 于 把 人 们 和 思想 
连接 起 来 感 兴 趣 。 她 从 发 现 新 的 方式 来 理解 复杂 系统 中 找到 美丽 ， 并 
且 对 于 和 组 织 、 存 储 和 可 视 化 数据 方面 相关 的 主题 感 兴 趣 。 她 在 罗 格 
斯 大 学 获得 政治 科学 学 位 ， 并 正在 为 0”Reilly 开 发 Gov 2. 0 内 容 ， 由 
于 该 空间 继续 增长 。Jul ie 还 致力 于 Python、PHP 和 SQL 相关 的 主题 工 
作 ， 而 且 是 纽约 尚未 学 习 Python 小 组 的 创始 人 。 





Moritz Stefaner 是 介 于 信息 可 视 化 和 设计 之 间 的 研究 人 员 和 自由 
职业 者 。 他 的 主要 兴趣 是 信息 可 视 化 和 数据 挖掘 如 何 帮 助 我 们 组 织 和 
发 现 信息 。 他 在 认 知 科学 和 界面 设计 上 都 获得 学 位 。 他 的 作品 曾 在 
SIGGRAPH 和 电子 艺术 节 上 展览 。 最 近 ， 他 被 提名 为 德国 2010 年 联邦 共 
和 国 设计 奖 。 可 以 在 http: //moritz. stefaner. eu 和 http: //well- 





formed-data. net 得 到 更 多 信息 。 








Jer Thorp 是 来 自 加 拿 大 温哥华 的 艺术 家 和 教育 家 。 作 为 前 遗传 学 
家 ， 其 数字 艺术 实践 探索 了 在 科学 和 艺术 之 间 的 多 个 方面 。 最 近 ， 他 
的 作品 体现 了 《纽约 时 报 》、《 卫 报 》、 加 拿 大 广播 公司 的 特征 。 
Thorp 的 基于 软件 的 获奖 作品 曾 在 欧洲 、 亚 洲 、 北 美 、 南 非 、 澳 大 利 亚 
和 整个 Web 上 展览 。Jer 是 有 线 英 国电 台 的 特约 编辑 。 


Fernanda Viegas 和 Martin Wattenberg 是 Flowing 媒 体 公 司 的 创始 
人 ，Flowing 媒 体 公司 是 拉 省 剑桥 的 可 视 化 设计 视频 。 他 们 在 2003 年 决 
定 对 维基 百科 进行 可 视 化 时 组 成 一 个 团队 ， 生 成 第 11 章 中 所 描述 的 历 
史 流 项 目 。 在 成 立 Flowing 媒 体 公司 之 前 ， 他 们 是 IBM 的 视 沉 通信 实验 
室 的 带头 人 ， 他 们 在 该 实验 室 探索 可 视 化 作为 多 媒体 的 强大 ， 以 及 其 
促使 了 数据 分 析 的 社会 形势 。 





Viégas 因 其 在 描述 聊天 历史 和 邮件 上 所 做 的 开创 新 工作 而 著名 。 
Wattenberg 对 股票 市 场 和 婴儿 名 字 的 可 视 化 被 认为 是 互联 网 的 经 典 。 
Viégas 和 Wattenberg 还 由 于 其 基于 可 视 化 的 艺术 作品 而 著名 ， 其 作品 











曾经 在 纽约 的 当代 艺术 展览 馆 大 道 、 当 代 艺 术 伦 敦 研究 所 和 美国 艺术 
的 Whitney 展 览 馆 展 出 。 


Graham Wakefield 通 过 从 生物 系统 和 由 生物 哲学 启发 的 灵感 来 探 
索 计 算 艺 术 的 开放 自主 权 。 他 是 加 州 大 学 圣 巴巴 拉 分 校 的 媒体 艺术 和 
技术 的 博士 候选 人 ， 并 且 从 伦敦 大 学 Goldsmiths 学 院 获 得 音乐 作曲 学 
位 ， 从 Warwick 大 学 获取 本 科学 位 。 除 了 作为 CNSI AlloSphere 的 一 名 
研究 人 员 ( (AloBrain, Cosm, LuaAV) ， 他 还 是 自行 车 74 比赛 
( CMx/MSP/Jitter) 的 软件 开发 人 员 ， 并 且 是 南 加 州 建筑 学 院 (〈STI- 
Arc) 的 一 名 讲师 。 他 的 作品 和 发 表 的 文章 在 国 际会 议 上 展 出 和 演示 ， 
如 SIGGRAPH、ICMC、ISEA。 











Martin Wattenberg 和 Fernanda Viégas 是 Flowing 媒 体 公 司 的 创始 


人 ， 如 上 文 所 述 。 


Michael Young 是 《纽约 时 报 》 公 司 的 研发 组 的 一 位 富 于 创意 的 技 
术 工 程 师 。 他 带领 了 一 个 较 小 的 技术 团队 ， 设 计 和 探索 在 多 平台 和 设 
备 上 的 内 容 消 费 特征 。 其 更 多 信息 可 以 通过 http: //8lnassau. com 访 
问 。 


